Anonimización de documentos legales usando LLMs con preentrenamiento continuo y sintonizado fino

Autores/as

Palabras clave:

anonimización, extracción de entidades, continued pretraining, finetuning, dominio legal

Resumen

Para realizar inferencia y generación de textos con grandes modelos de lenguaje entrenados con bases de datos que contienen sentencias judiciales y documentos legales es fundamental garantizar la confidencialidad de los datos personales y la protección de información sensible. En este trabajo, proponemos una metodología para la anonimización de bases de datos legales basada en la extracción de entidades mediante modelos de lenguaje avanzados. Se utilizaron dos modelos de lenguaje de c´odigo abierto, LLaMA 3.1 (8B) y Qwen 2.5 (7B). Cada modelo de lenguaje es entrenado en dos etapas, primero un preentrenamiento continuo en el cual se adapta el modelo al lenguaje jurídico, mejorando su capacidad de comprensión y generación de textos en este dominio especializado. Para esto se utilizó un corpus de más de 26.000 documentos legales y se evalúa la efectividad del preentrenamiento a través de métricas como BLEU, BERTScore y perplejidad. En una segunda etapa se realiza un finetuning específico para la tarea de anonimización y extracción de entidades. Dicho finetuning se evaluó en un conjunto de 50 segmentos de prueba, obteniendo un 92,79% de anonimización correcta con Qwen 2.5 (7B) y 91,58% con LLaMA 3.1 (8B), mejorando en un 4,73% y un 12,87% con respecto al modelo base con finetuning, respectivamente, destacando el impacto del continued pretraining como paso previo. Ambos entrenamientos, tanto el continued pretraining como el finetuning, fueron realizados mediante LoRA.

Descargas

Publicado

2025-10-15

Número

Sección

ASAID - Simposio Argentino de Inteligencia Artificial y Ciencias de Datos

Cómo citar

Ortman, S. O., Canteros, L. B., Vargas, F., Escalante, G., González Coene, A., & Pulido, M. (2025). Anonimización de documentos legales usando LLMs con preentrenamiento continuo y sintonizado fino. JAIIO, Jornadas Argentinas De Informática, 11(1), 325-339. https://revistas.unlp.edu.ar/JAIIO/article/view/19829