SplitGen: algoritmo evolutivo para división de datos en conjuntos pequeños

Autores/as

  • Lucila Chiarvetto Peralta Universidad Nacional de Tierra del Fuego, Antártida e Islas del Atlántico Sur, Argentina https://orcid.org/0009-0008-1347-8149
  • Nélida Beatriz Brignole Universidad Nacional del Sur, Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET), Argentina

Palabras clave:

Bases de datos pequeñas, Algoritmos evolutivos, Distancia de Mahalanobis, Distancia de Wasserstein, Algoritmos gen éticos

Resumen

La decisión comúnmente adoptada en escenarios con abundantes datos, es la división aleatoria de los mismos. Sin embargo, cuando los datos escasean, esta decisión puede no ser la más apropiada. Se introduce SplitGen que es un algoritmo evolutivo diseñado para optimizar la división del conjunto de datos basado en un criterio de distancias. Su enfoque busca garantizar que los subconjuntos sean los más representativos posibles del conjunto original, mitigando el riesgo de introducir sesgos en la evaluación del modelo. La implementación se realizó en Python utilizando la librería DEAP. Se comparo su desempeño contra una búsqueda aleatoria, evaluando las soluciones mediante la pseudo distancia de Mahalanobis y la distancia de Wasserstein. Se observó un mejor desempeño del algoritmo gen ético, especialmente cuando el tamaño del conjunto de datos esta entre 1000 y 10000 observaciones, y en distribuciones uniformes comparadas con las normales, sugiriendo una mayor dificultad en presencia de curtosis y valores atípicos.

Descargas

Publicado

2024-09-19

Número

Sección

ASAID - Simposio Argentino de Inteligencia Artificial y Ciencias de Datos

Cómo citar

Chiarvetto Peralta, L., & Brignole, N. B. (2024). SplitGen: algoritmo evolutivo para división de datos en conjuntos pequeños. JAIIO, Jornadas Argentinas De Informática, 10(1), 28-41. https://revistas.unlp.edu.ar/JAIIO/article/view/17924