Imputación de genotipos faltantes mediante algoritmos de machine learning

Autores/as

Palabras clave:

imputación, machine learning, random forest, polimorfismo de nucleótido único

Resumen

La imputación o inferencia de genotipos faltantes utilizando correlaciones entre variantes obtenidas a partir de paneles de referencia puede ser llevada a cabo por programas específicos basados en la utilización de información genética familiar y/o poblacional o mediante la implementación de algoritmos de machine learning. El objetivo de este trabajo fue evaluar la precisión en la imputación lograda mediante distintas estrategias de machine learning, tras comparar genotipos imputados con los obtenidos por genotipificación con un microarreglo de mediana densidad de SNPs. Sobre una base de datos con genotipos de 966 ovinos en 57.876 SNPs, con 53,4% de genotipos faltantes, se exploraron tres estrategias de imputación basadas en el algoritmo random forest. Un subconjunto de los genotipos imputados, correspondientes a 232 animales en 30.924 SNPs, fue comparado con genotipos obtenidos por genotipificación. El porcentaje de concordancia obtenido para las tres estrategias fue de alrededor de 60%. Este bajo porcentaje puede atribuirse a la gran cantidad de genotipos no asignados del archivo de partida. Una estrategia para aumentar la precisión de la imputación podría ser aumentar el número de animales en la población de referencia y, de este modo, reducir la proporción de genotipos faltantes en el conjunto de datos. 

Descargas

Publicado

2025-09-30

Número

Sección

CAI - Congreso Argentino de AgroInformática

Cómo citar

Raschia, M. A., Ríos, P. J., Cordoba, M. E., Caffaro, M. E., Donzelli, M. V., Maizon, D. O., & Poli, M. A. (2025). Imputación de genotipos faltantes mediante algoritmos de machine learning. JAIIO, Jornadas Argentinas De Informática, 11(3), 155-165. https://revistas.unlp.edu.ar/JAIIO/article/view/19680