Extracción de entidades en sentencias judiciales usando LLaMA-2

Autores/as

  • Francisco Vargas Universidad Nacional del Nordeste, Argentina
  • Alejandro Gonzalez Coene Universidad Nacional del Nordeste, Argentina
  • Gaston Escalante Universidad Nacional del Nordeste, Argentina
  • Exequiel Lobón Universidad Nacional del Nordeste, Argentina
  • Manuel Pulido Universidad Nacional del Nordeste, Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET), Argentina

Palabras clave:

Reconocimiento de entidades nombradas, Grandes modelos de lenguaje, Textos legales

Resumen

La extracción de información de accidentes viales disponible en sentencias judiciales es de relevancia para la cuantificación de costos de las aseguradoras. La extracción de entidades tales como porcentajes de incapacidad física y/o psicológica y montos involucrados es un proceso difícil aun para expertos por las sutiles argumentaciones en las sentencias. Se propone un procedimiento que se divide en dos pasos, la segmentación de la sentencia e identificación del segmento relevante y luego la extracción de las entidades. Se comparan dos metodologías, un método clásico basado en expresiones regulares. La segunda metodología está basada en la división del documento en bloques de n-tokens para luego vectorizarlos con modelos multilenguajes para búsquedas semánticas (text-embedding-ada-002/MiniLM-L12-v2 ). Posteriormente se aplican LLMs (LLaMA-2 7b, 70b y GPT4) con prompting al bloque relevante para la extracción. En el caso de LLaMA-2 se realiza un sintonizado fino (finetuning) con LoRA. LLaMA-2 7b aun con temperatura nula presenta un significativo número de alucinaciones en las extracciones que disminuye sustancialmente con el sintonizado. El rendimiento de la metodología basada en el vectorizado de los segmentos y el posterior uso de los LLMs supera ampliamente al método clásico. La exactitud del método clásico es 39,5 %, la de LLaMA-2 70b base 61,7 % y con sintonizado 79,4 %, mientras que para GPT-4 Turbo es 86,1 %.

Descargas

Publicado

2024-09-19

Número

Sección

ASAID - Simposio Argentino de Inteligencia Artificial y Ciencias de Datos

Cómo citar

Vargas, F., Gonzalez Coene, A., Escalante, G., Lobón, E., & Pulido, M. (2024). Extracción de entidades en sentencias judiciales usando LLaMA-2. JAIIO, Jornadas Argentinas De Informática, 10(1), 42-55. https://revistas.unlp.edu.ar/JAIIO/article/view/17923