Análisis y clasificación de páginas webs mediante inteligencia artificial para organismo de registro de dominios
Palabras clave:
scraping, OCR, inteligencia artificial, dominios web, procesamiento distribuidoResumen
La recolección masiva de datos es una tarea crucial en ámbitos como la investigación, la seguridad y la regulación de dominios, especialmente en organismos nacionales como NIC.ar en Argentina. Sin embargo, el scraping tradicional enfrenta limitaciones ante sitios web dinámicos que presentan contenido como imágenes, banners o elementos generados por JavaScript. Este trabajo propone un modelo de scraping híbrido que complementa las técnicas estática y dinámica con reconocimiento de texto (OCR) y de objetos mediante inteligencia artificial. Se implementaron dos softbots: uno para OCR con Tesseract y otro para reconocimiento de objetos con YOLO. El sistema fue evaluado sobre un conjunto de 50.000 dominios, logrando recolectar información del 80% de los casos previamente inaccesibles. Este trabajo sienta las bases para la siguiente etapa de análisis y clasificación automática mediante aprendizaje supervisado.
Descargas
Publicado
Número
Sección
Licencia
Derechos de autor 2025 Néstor Adrián Balich, Bernice Lourdes Balich

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-CompartirIgual 4.0.
Acorde a estos términos, el material se puede compartir (copiar y redistribuir en cualquier medio o formato) y adaptar (remezclar, transformar y crear a partir del material otra obra), siempre que a) se cite la autoría y la fuente original de su publicación (revista y URL de la obra), b) no se use para fines comerciales y c) se mantengan los mismos términos de la licencia.











