Anonimización de documentos legales usando LLMs con preentrenamiento continuo y sintonizado fino

Sofia Ornella Ortman; Luciana Belen Canteros; Francisco Vargas; Gaston Escalante; Alejandro González Coene; Manuel Pulido

Anonimización de documentos legales usando LLMs con preentrenamiento continuo y sintonizado fino

Autores/as

Sofia Ornella Ortman Universidad Nacional del Nordeste, Argentina https://orcid.org/0009-0005-0674-1293
Luciana Belen Canteros Universidad Nacional del Nordeste, Argentina https://orcid.org/0009-0004-5453-8786
Francisco Vargas Legalhub S. A., Argentina https://orcid.org/0009-0009-3380-4105
Gaston Escalante Legalhub S. A., Argentina https://orcid.org/0009-0002-1276-0472
Alejandro González Coene Legalhub S. A., Argentina https://orcid.org/0009-0006-0633-6113
Manuel Pulido Universidad Nacional del Nordeste, Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET), Argentina https://orcid.org/0000-0003-3992-8044

Palabras clave:

anonimización, extracción de entidades, continued pretraining, finetuning, dominio legal

Resumen

Para realizar inferencia y generación de textos con grandes modelos de lenguaje entrenados con bases de datos que contienen sentencias judiciales y documentos legales es fundamental garantizar la confidencialidad de los datos personales y la protección de información sensible. En este trabajo, proponemos una metodología para la anonimización de bases de datos legales basada en la extracción de entidades mediante modelos de lenguaje avanzados. Se utilizaron dos modelos de lenguaje de c´odigo abierto, LLaMA 3.1 (8B) y Qwen 2.5 (7B). Cada modelo de lenguaje es entrenado en dos etapas, primero un preentrenamiento continuo en el cual se adapta el modelo al lenguaje jurídico, mejorando su capacidad de comprensión y generación de textos en este dominio especializado. Para esto se utilizó un corpus de más de 26.000 documentos legales y se evalúa la efectividad del preentrenamiento a través de métricas como BLEU, BERTScore y perplejidad. En una segunda etapa se realiza un finetuning específico para la tarea de anonimización y extracción de entidades. Dicho finetuning se evaluó en un conjunto de 50 segmentos de prueba, obteniendo un 92,79% de anonimización correcta con Qwen 2.5 (7B) y 91,58% con LLaMA 3.1 (8B), mejorando en un 4,73% y un 12,87% con respecto al modelo base con finetuning, respectivamente, destacando el impacto del continued pretraining como paso previo. Ambos entrenamientos, tanto el continued pretraining como el finetuning, fueron realizados mediante LoRA.

Descargas

Los datos de descarga aún no están disponibles.

Descargas

Publicado

2025-10-15

Número

Vol. 11 Núm. 1 (2025): ASAID – Simposio Argentino de Inteligencia Artificial y Ciencia de Datos

Sección

ASAID - Simposio Argentino de Inteligencia Artificial y Ciencias de Datos

Licencia

Derechos de autor 2025 Sofia Ornella Ortman, Luciana Belen Canteros, Francisco Vargas, Gaston Escalante, Alejandro González Coene, Manuel Pulido

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-CompartirIgual 4.0.

Acorde a estos términos, el material se puede compartir (copiar y redistribuir en cualquier medio o formato) y adaptar (remezclar, transformar y crear a partir del material otra obra), siempre que a) se cite la autoría y la fuente original de su publicación (revista y URL de la obra), b) no se use para fines comerciales y c) se mantengan los mismos términos de la licencia.

Cómo citar

Ortman, S. O., Canteros, L. B., Vargas, F., Escalante, G., González Coene, A., & Pulido, M. (2025). Anonimización de documentos legales usando LLMs con preentrenamiento continuo y sintonizado fino. JAIIO, Jornadas Argentinas De Informática, 11(1), 325-339. https://revistas.unlp.edu.ar/JAIIO/article/view/19829