Análisis y clasificación de páginas webs mediante inteligencia artificial para organismo de registro de dominios

Néstor Adrián Balich; Bernice Lourdes Balich

Análisis y clasificación de páginas webs mediante inteligencia artificial para organismo de registro de dominios

Autores/as

Néstor Adrián Balich Universidad Abierta Interamericana, Argentina https://orcid.org/0009-0002-3868-1967
Bernice Lourdes Balich Universidad Abierta Interamericana, Argentina https://orcid.org/0009-0007-2783-2842

Palabras clave:

scraping, OCR, inteligencia artificial, dominios web, procesamiento distribuido

Resumen

La recolección masiva de datos es una tarea crucial en ámbitos como la investigación, la seguridad y la regulación de dominios, especialmente en organismos nacionales como NIC.ar en Argentina. Sin embargo, el scraping tradicional enfrenta limitaciones ante sitios web dinámicos que presentan contenido como imágenes, banners o elementos generados por JavaScript. Este trabajo propone un modelo de scraping híbrido que complementa las técnicas estática y dinámica con reconocimiento de texto (OCR) y de objetos mediante inteligencia artificial. Se implementaron dos softbots: uno para OCR con Tesseract y otro para reconocimiento de objetos con YOLO. El sistema fue evaluado sobre un conjunto de 50.000 dominios, logrando recolectar información del 80% de los casos previamente inaccesibles. Este trabajo sienta las bases para la siguiente etapa de análisis y clasificación automática mediante aprendizaje supervisado.

Descargas

Los datos de descarga aún no están disponibles.

Descargas

Publicado

2025-10-21

Número

Vol. 11 Núm. 13 (2025): SIE - Simposio de Informática en el Estado

Sección

SIE - Simposio de Informática en el Estado

Licencia

Derechos de autor 2025 Néstor Adrián Balich, Bernice Lourdes Balich

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-CompartirIgual 4.0.

Acorde a estos términos, el material se puede compartir (copiar y redistribuir en cualquier medio o formato) y adaptar (remezclar, transformar y crear a partir del material otra obra), siempre que a) se cite la autoría y la fuente original de su publicación (revista y URL de la obra), b) no se use para fines comerciales y c) se mantengan los mismos términos de la licencia.

Cómo citar

Balich, N. A., & Balich, B. L. (2025). Análisis y clasificación de páginas webs mediante inteligencia artificial para organismo de registro de dominios. JAIIO, Jornadas Argentinas De Informática, 11(13), 190-198. https://revistas.unlp.edu.ar/JAIIO/article/view/19899