OBTENCIÓN AUTOMÁTICA DE RESÚMENES UTILIZANDO ESTRATEGIAS ADAPTATIVAS

Augusto Villa Monte; Laura Cristina Lanzarini

Autores/as

Augusto Villa Monte Instituto de Investigación en Informática LIDI (III-LIDI), Facultad de Informática, UNLP-CIC.
Laura Cristina Lanzarini Instituto de Investigación en Informática LIDI (III-LIDI), Facultad de Informática, UNLP-CIC.

Palabras clave:

Minería de textos, Resúmenes automáticos, Soft computing

Resumen

En la actualidad, el acceso a la información y el descubrimiento del conocimiento se convirtieron en tareas fundamentalmente necesarias en todos los ámbitos. El desarrollo de métodos inteligentes capaces de representar la información disponible se volvió indispensable.
Si bien continuamente se generan datos en diferentes formatos, la mayoría de los sistemas y aplicaciones actuales producen y almacenan texto. Este formato resulta menos atractivo que otros tales como el sonido, las imágenes y el video, pero, sin duda, resulta ser el principal medio de comunicación entre los seres humanos en la actualidad. Cada correo electrónico enviado, cada búsqueda realizada en Internet y cada publicación subida a la red implica, en mayor o menor medida, datos en formato texto.

Desde la invención de la escritura en la antigüedad, los seres humanos almacenan el conocimiento en textos. Desde entonces, la cantidad de documentos disponibles ha aumentado exponencialmente mientras el costo de generar, almacenar, duplicar y compartir información fue disminuyendo. En los últimos sesenta años a partir del trabajo de Luhn, muchos investigadores se han esforzado por construir en forma automática resúmenes de documentos.

Desarrollar un programa de computadora que resuma automáticamente un documento requiere instrucciones precisas. Existen dos grandes enfoques para tratar un documento. Uno tiene que ver con la interpretación del significado del contenido y el otro con el análisis de su estructura. Esta beca tiene por objetivo desarrollar dos estrategias capaces de resumir documentos de texto en forma automática desde dos perspectivas diferentes. Por un lado, se busca identificar el criterio del usuario para seleccionar las partes principales de un documento y, por otro, extraer de un documento patrones textuales específicos sumamente útiles en la toma de decisiones.

En el primer caso, los documentos son representados a través de una serie de métricas que permiten resumir el documento con diferente criterio. En lugar de utilizarlas todas las métricas en forma independiente, a través de una técnica de optimización, se sugiere la combinación del subconjunto de métricas que mejor ajusta con la valoración que el usuario realizó de cada parte del documento. Luego, por ejemplo, el resumen obtenido podría servir para identificar las páginas web más relacionadas con la temática de la búsqueda indicada por el usuario. Brindándole información adicional en la lista de resultados se espera contribuir en la interpretación de los resultados obtenidos reduciendo la cantidad de resultados a analizar.

En el segundo caso, se propone extraer de los documentos disponibles todas las sentencias causales y representarlas en forma de grafo. La causalidad cumple un rol importante en cualquier toma de decisiones proporcionando información que permite seleccionar una determinada acción que pueda conducir a un resultado deseado. A partir del grafo construido, pueden apreciarse las principales relaciones "causa-efecto" que describen un texto y leyendo sus nodos puede construirse el resumen. Actualmente, se están estudiando las relaciones causales, pero haciendo hincapié en restricciones temporales que afectan su interpretación. Podrían obtenerse muchos beneficios de su aplicación en el área de salud, dónde el tiempo y la causalidad tienen una relevancia extraordinaria.