Análisis y clasificación de páginas webs mediante inteligencia artificial para organismo de registro de dominios

Autores/as

Palabras clave:

scraping, OCR, inteligencia artificial, dominios web, procesamiento distribuido

Resumen

La recolección masiva de datos es una tarea crucial en ámbitos como la investigación, la seguridad y la regulación de dominios, especialmente en organismos nacionales como NIC.ar en Argentina. Sin embargo, el scraping tradicional enfrenta limitaciones ante sitios web dinámicos que presentan contenido como imágenes, banners o elementos generados por JavaScript. Este trabajo propone un modelo de scraping híbrido que complementa las técnicas estática y dinámica con reconocimiento de texto (OCR) y de objetos mediante inteligencia artificial. Se implementaron dos softbots: uno para OCR con Tesseract y otro para reconocimiento de objetos con YOLO. El sistema fue evaluado sobre un conjunto de 50.000 dominios, logrando recolectar información del 80% de los casos previamente inaccesibles. Este trabajo sienta las bases para la siguiente etapa de análisis y clasificación automática mediante aprendizaje supervisado. 

Descargas

Publicado

2025-10-21

Número

Sección

SIE - Simposio de Informática en el Estado

Cómo citar

Balich, N. A., & Balich, B. L. (2025). Análisis y clasificación de páginas webs mediante inteligencia artificial para organismo de registro de dominios. JAIIO, Jornadas Argentinas De Informática, 11(13), 190-198. https://revistas.unlp.edu.ar/JAIIO/article/view/19899