Extracción de entidades en sentencias judiciales usando LLaMA-2
Keywords:
Reconocimiento de entidades nombradas, Grandes modelos de lenguaje, Textos legalesAbstract
La extracción de información de accidentes viales disponible en sentencias judiciales es de relevancia para la cuantificación de costos de las aseguradoras. La extracción de entidades tales como porcentajes de incapacidad física y/o psicológica y montos involucrados es un proceso difícil aun para expertos por las sutiles argumentaciones en las sentencias. Se propone un procedimiento que se divide en dos pasos, la segmentación de la sentencia e identificación del segmento relevante y luego la extracción de las entidades. Se comparan dos metodologías, un método clásico basado en expresiones regulares. La segunda metodología está basada en la división del documento en bloques de n-tokens para luego vectorizarlos con modelos multilenguajes para búsquedas semánticas (text-embedding-ada-002/MiniLM-L12-v2 ). Posteriormente se aplican LLMs (LLaMA-2 7b, 70b y GPT4) con prompting al bloque relevante para la extracción. En el caso de LLaMA-2 se realiza un sintonizado fino (finetuning) con LoRA. LLaMA-2 7b aun con temperatura nula presenta un significativo número de alucinaciones en las extracciones que disminuye sustancialmente con el sintonizado. El rendimiento de la metodología basada en el vectorizado de los segmentos y el posterior uso de los LLMs supera ampliamente al método clásico. La exactitud del método clásico es 39,5 %, la de LLaMA-2 70b base 61,7 % y con sintonizado 79,4 %, mientras que para GPT-4 Turbo es 86,1 %.
Downloads
Published
Issue
Section
License
Copyright (c) 2024 Francisco Vargas, Alejandro Gonzalez Coene, Gaston Escalante, Exequiel Lobón, Manuel Pulido

This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Acorde a estos términos, el material se puede compartir (copiar y redistribuir en cualquier medio o formato) y adaptar (remezclar, transformar y crear a partir del material otra obra), siempre que a) se cite la autoría y la fuente original de su publicación (revista y URL de la obra), b) no se use para fines comerciales y c) se mantengan los mismos términos de la licencia.











