Cuantificando la organización social a través del procesamiento del lenguaje natural

Franco Demarco; Juan Manuel Ortiz de Zarate; Esteban Feuerstein

Cuantificando la organización social a través del procesamiento del lenguaje natural

Autores/as

Franco Demarco Universidad de Buenos Aires, Argentina
Juan Manuel Ortiz de Zarate Universidad de Buenos Aires, Argentina
Esteban Feuerstein Departamento de Computación, Facultad de Ciencias Exactas y Naturales, Universidad de Buenos Aires

Palabras clave:

PLN, LLM, Redes Sociales

Resumen

El debate sobre la integración y fragmentación social en las plataformas de redes sociales online sigue en curso. El desplazamiento de los usuarios hacia extremos ideológicos y agrupamiento en ``cámaras de eco" homogéneas son preocupantes. Waller et al. recientemente desarrollaron un método para cuantificar el posicionamiento de las comunidades en Reddit a lo largo de las dimensiones sociales en base a la concurrencia de usuarios en distintas comunidades. Utilizaron embeddings de comunidades para proyectarlas en direcciones unidimensionales que representan ``dimensiones ideológicas", obteniendo puntajes o scores que posicionan a cada comunidad en el espectro político-ideológico. Proponemos desarrollar una técnica análoga pero utilizando el texto de los posteos y comentarios de los subreddits en lugar de las interacciones. La hipótesis es que las jergas, tópicos y formas discursivas de cada comunidad permiten cuantificar muchos de sus aspectos ideológicos de forma similar a sus interacciones. Utilizamos Fasttext y LLMs para estimar diferentes tipos de embeddings de texto y RBO para comparar los resultados obtenidos. Los resultados preliminares sugieren que existe una relación estadísticamente significativa entre los scores obtenidos y los reportados en el trabajo de Waller et al., lo que podría señalar la existencia de jergas propias de las comunidades que permiten cuantificar su posicionamiento ideológico.

Descargas

Publicado

2023-07-21

Número

Vol. 9 Núm. 1 (2023): AGRANDA 2023 - Simposio Argentino de Ciencia de Datos y Grandes Datos

Sección

AGRANDA - Simposio Argentino de Ciencia de Datos y GRANdes DAtos

Licencia

Derechos de autor 2023 Franco Demarco, Juan Manuel Ortiz de Zarate, Esteban Feuerstein

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-CompartirIgual 4.0.

Acorde a estos términos, el material se puede compartir (copiar y redistribuir en cualquier medio o formato) y adaptar (remezclar, transformar y crear a partir del material otra obra), siempre que a) se cite la autoría y la fuente original de su publicación (revista y URL de la obra), b) no se use para fines comerciales y c) se mantengan los mismos términos de la licencia.