Investigando la distorsión de frecuencia en Word Embeddings y su impacto en métricas de sesgo

Autores/as

  • Francisco Valentini Universidad de Buenos Aires, Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET), Argentina
  • Juan Cruz Sosa Universidad de Buenos Aires, Argentina
  • Diego Slezak Universidad de Buenos Aires, Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET), Argentina
  • Edgar Altszyler Universidad de Buenos Aires, Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET), Argentina

Palabras clave:

procesamiento de lenguaje, word embedding, sesgo

Resumen

Investigaciones recientes han demostrado que los word embeddings estáticos pueden codificar información sobre la frecuencia de las palabras. Sin embargo, poco se ha estudiado sobre este fenómeno y sus efectos en tareas posteriores. En este trabajo estudiamos sistemáticamente la asociación entre frecuencia y similitud semántica en varios word embeddings estáticos . Descubrimos que los embeddings Skip-gram, GloVe y FastText tienden a producir una mayor similitud semántica entre palabras de alta frecuencia que entre otras combinaciones de frecuencias. Demostramos que la asociación entre frecuencia y similitud también aparece cuando las palabras se mezclan aleatoriamente. Esto demuestra que los patrones encontrados no se deben a asociaciones semánticas reales presentes en los textos, sino que son un artefacto producido por los embeddings. Por último, ofrecemos un ejemplo de cómo la frecuencia de las palabras puede influir mucho en la medición del sesgo de género con métricas basadas en embeddings. En particular, llevamos a cabo un experimento controlado que demuestra que los sesgos pueden incluso cambiar de signo o invertir su orden manipulando las frecuencias de las palabras.

Descargas

Publicado

2025-10-15

Cómo citar

Valentini, F., Sosa, J. C., Slezak, D., & Altszyler, E. (2025). Investigando la distorsión de frecuencia en Word Embeddings y su impacto en métricas de sesgo. JAIIO, Jornadas Argentinas De Informática, 11(1), 85-86. https://revistas.unlp.edu.ar/JAIIO/article/view/19756