Anonimización de documentos legales usando LLMs con preentrenamiento continuo y sintonizado fino
Palabras clave:
anonimización, extracción de entidades, continued pretraining, finetuning, dominio legalResumen
Para realizar inferencia y generación de textos con grandes modelos de lenguaje entrenados con bases de datos que contienen sentencias judiciales y documentos legales es fundamental garantizar la confidencialidad de los datos personales y la protección de información sensible. En este trabajo, proponemos una metodología para la anonimización de bases de datos legales basada en la extracción de entidades mediante modelos de lenguaje avanzados. Se utilizaron dos modelos de lenguaje de c´odigo abierto, LLaMA 3.1 (8B) y Qwen 2.5 (7B). Cada modelo de lenguaje es entrenado en dos etapas, primero un preentrenamiento continuo en el cual se adapta el modelo al lenguaje jurídico, mejorando su capacidad de comprensión y generación de textos en este dominio especializado. Para esto se utilizó un corpus de más de 26.000 documentos legales y se evalúa la efectividad del preentrenamiento a través de métricas como BLEU, BERTScore y perplejidad. En una segunda etapa se realiza un finetuning específico para la tarea de anonimización y extracción de entidades. Dicho finetuning se evaluó en un conjunto de 50 segmentos de prueba, obteniendo un 92,79% de anonimización correcta con Qwen 2.5 (7B) y 91,58% con LLaMA 3.1 (8B), mejorando en un 4,73% y un 12,87% con respecto al modelo base con finetuning, respectivamente, destacando el impacto del continued pretraining como paso previo. Ambos entrenamientos, tanto el continued pretraining como el finetuning, fueron realizados mediante LoRA.
Descargas
Publicado
Número
Sección
Licencia
Derechos de autor 2025 Sofia Ornella Ortman, Luciana Belen Canteros, Francisco Vargas, Gaston Escalante, Alejandro González Coene, Manuel Pulido

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-CompartirIgual 4.0.
Acorde a estos términos, el material se puede compartir (copiar y redistribuir en cualquier medio o formato) y adaptar (remezclar, transformar y crear a partir del material otra obra), siempre que a) se cite la autoría y la fuente original de su publicación (revista y URL de la obra), b) no se use para fines comerciales y c) se mantengan los mismos términos de la licencia.











