Evaluaci´on de probabilidades a posteriori: teor´ıa de decisi´on, proper scoring rules y calibraci´on

Luciana Ferrer; Daniel Ramos

Evaluaci´on de probabilidades a posteriori: teor´ıa de decisi´on, proper scoring rules y calibraci´on

Autores/as

Luciana Ferrer Universidad de Buenos Aires, Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET), Argentina https://orcid.org/0000-0002-0426-8683
Daniel Ramos Universidad Aut´onoma de Madrid, España https://orcid.org/0000-0001-5998-1489

Palabras clave:

proper scoring rules, calibración, sistemas de clasificación, teoría de decisión

Resumen

La mayoría de los clasificadores de aprendizaje automático están diseñados para generar probabilidades a posteriori para las clases, dadas las muestras de entrada. Estas probabilidades pueden utilizarse para tomar una decisión categórica sobre la clase de la muestra; proporcionarse como entrada a un sistema posterior; o entregarse a un humano para su interpretación. Evaluar la calidad de las probabilidades a posteriori generadas por estos sistemas es un problema esencial que fue abordado hace décadas con la invención de las proper scoring rules (PSRs). Desafortunadamente, gran parte de la literatura reciente en aprendizaje automático utiliza métricas de calibración —más comúnmente, el error de calibración esperado (ECE)— como un sustituto para evaluar el rendimiento de las probabilidades a posteriori. El problema con este enfoque es que las métricas de calibración reflejan solo un aspecto de la calidad de las probabilidades, ignorando el rendimiento en discriminación. Por esta razón, argumentamos que las métricas de calibración no deberían tener ningún papel en la evaluación de la calidad de las probabilidades a posteriori, y que en su lugar deberían utilizarse las PSRs esperadas para este propósito. Aunque no son útiles para evaluar el rendimiento, las métricas de calibración pueden usarse como herramientas de diagnóstico durante el desarrollo del sistema. Con este objetivo en mente, discutimos una métrica de calibración simple y práctica, llamada pérdida de calibración. Comparamos esta métrica con el ECE y con la divergencia de puntuación esperada, y argumentamos que la pérdida de calibración es superior a estas dos métricas.

Descargas

Publicado

2025-10-15

Número

Vol. 11 Núm. 1 (2025): ASAID – Simposio Argentino de Inteligencia Artificial y Ciencia de Datos

Sección

ASAID - Simposio Argentino de Inteligencia Artificial y Ciencias de Datos

Licencia

Derechos de autor 2025 Luciana Ferrer, Daniel Ramos

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-CompartirIgual 4.0.

Acorde a estos términos, el material se puede compartir (copiar y redistribuir en cualquier medio o formato) y adaptar (remezclar, transformar y crear a partir del material otra obra), siempre que a) se cite la autoría y la fuente original de su publicación (revista y URL de la obra), b) no se use para fines comerciales y c) se mantengan los mismos términos de la licencia.

Cómo citar

Ferrer, L., & Ramos, D. (2025). Evaluaci´on de probabilidades a posteriori: teor´ıa de decisi´on, proper scoring rules y calibraci´on. JAIIO, Jornadas Argentinas De Informática, 11(1), 217-218. https://revistas.unlp.edu.ar/JAIIO/article/view/19795