Investigando la distorsión de frecuencia en Word Embeddings y su impacto en métricas de sesgo
Palabras clave:
procesamiento de lenguaje, word embedding, sesgoResumen
Investigaciones recientes han demostrado que los word embeddings estáticos pueden codificar información sobre la frecuencia de las palabras. Sin embargo, poco se ha estudiado sobre este fenómeno y sus efectos en tareas posteriores. En este trabajo estudiamos sistemáticamente la asociación entre frecuencia y similitud semántica en varios word embeddings estáticos . Descubrimos que los embeddings Skip-gram, GloVe y FastText tienden a producir una mayor similitud semántica entre palabras de alta frecuencia que entre otras combinaciones de frecuencias. Demostramos que la asociación entre frecuencia y similitud también aparece cuando las palabras se mezclan aleatoriamente. Esto demuestra que los patrones encontrados no se deben a asociaciones semánticas reales presentes en los textos, sino que son un artefacto producido por los embeddings. Por último, ofrecemos un ejemplo de cómo la frecuencia de las palabras puede influir mucho en la medición del sesgo de género con métricas basadas en embeddings. En particular, llevamos a cabo un experimento controlado que demuestra que los sesgos pueden incluso cambiar de signo o invertir su orden manipulando las frecuencias de las palabras.
Descargas
Publicado
Número
Sección
Licencia
Derechos de autor 2025 Francisco Valentini, Juan Cruz Sosa, Diego Slezak, Edgar Altszyler

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-CompartirIgual 4.0.
Acorde a estos términos, el material se puede compartir (copiar y redistribuir en cualquier medio o formato) y adaptar (remezclar, transformar y crear a partir del material otra obra), siempre que a) se cite la autoría y la fuente original de su publicación (revista y URL de la obra), b) no se use para fines comerciales y c) se mantengan los mismos términos de la licencia.











