Investigando la distorsión de frecuencia en Word Embeddings y su impacto en métricas de sesgo

Francisco Valentini; Juan Cruz Sosa; Diego Slezak; Edgar Altszyler

Investigando la distorsión de frecuencia en Word Embeddings y su impacto en métricas de sesgo

Autores/as

Francisco Valentini Universidad de Buenos Aires, Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET), Argentina
Juan Cruz Sosa Universidad de Buenos Aires, Argentina
Diego Slezak Universidad de Buenos Aires, Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET), Argentina
Edgar Altszyler Universidad de Buenos Aires, Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET), Argentina

Palabras clave:

procesamiento de lenguaje, word embedding, sesgo

Resumen

Investigaciones recientes han demostrado que los word embeddings estáticos pueden codificar información sobre la frecuencia de las palabras. Sin embargo, poco se ha estudiado sobre este fenómeno y sus efectos en tareas posteriores. En este trabajo estudiamos sistemáticamente la asociación entre frecuencia y similitud semántica en varios word embeddings estáticos . Descubrimos que los embeddings Skip-gram, GloVe y FastText tienden a producir una mayor similitud semántica entre palabras de alta frecuencia que entre otras combinaciones de frecuencias. Demostramos que la asociación entre frecuencia y similitud también aparece cuando las palabras se mezclan aleatoriamente. Esto demuestra que los patrones encontrados no se deben a asociaciones semánticas reales presentes en los textos, sino que son un artefacto producido por los embeddings. Por último, ofrecemos un ejemplo de cómo la frecuencia de las palabras puede influir mucho en la medición del sesgo de género con métricas basadas en embeddings. En particular, llevamos a cabo un experimento controlado que demuestra que los sesgos pueden incluso cambiar de signo o invertir su orden manipulando las frecuencias de las palabras.

Descargas

PDF (Inglés)

Publicado

2025-10-15

Número

Vol. 11 Núm. 1 (2025): ASAID – Simposio Argentino de Inteligencia Artificial y Ciencia de Datos

Sección

Artículos

Licencia

Derechos de autor 2025 Francisco Valentini, Juan Cruz Sosa, Diego Slezak, Edgar Altszyler

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-CompartirIgual 4.0.

Acorde a estos términos, el material se puede compartir (copiar y redistribuir en cualquier medio o formato) y adaptar (remezclar, transformar y crear a partir del material otra obra), siempre que a) se cite la autoría y la fuente original de su publicación (revista y URL de la obra), b) no se use para fines comerciales y c) se mantengan los mismos términos de la licencia.

Cómo citar

Valentini, F., Sosa, J. C., Slezak, D., & Altszyler, E. (2025). Investigando la distorsión de frecuencia en Word Embeddings y su impacto en métricas de sesgo. JAIIO, Jornadas Argentinas De Informática, 11(1), 85-86. https://revistas.unlp.edu.ar/JAIIO/article/view/19756