Métricas de rendimiento
Las métricas de rendimiento cuantifican la calidad de las predicciones de un modelo, con diferentes medidas que capturan distintos aspectos de la precisión y distintos costos de error.
Definition
Una métrica de rendimiento es un resumen numérico de la cercanía entre las predicciones de un modelo y los objetivos verdaderos en los datos de evaluación; la métrica apropiada depende del tipo de tarea, el equilibrio de las clases y los costos relativos de los diferentes tipos de error.
Scope
Este tema abarca las medidas utilizadas para juzgar el rendimiento de un modelo: para la clasificación, la exactitud, la precisión, la exhaustividad (recall), la medida F y la curva característica operativa del receptor con su área; para la regresión, el error cuadrático medio y el error absoluto, y el coeficiente de determinación; y las reglas de puntuación probabilística como la pérdida logarítmica. Aborda la elección de la métrica en situaciones de desequilibrio de clases y costos de error asimétricos.
Core questions
- ¿Qué métrica refleja el verdadero objetivo de una tarea dada?
- ¿Cómo se compensan la precisión y la exhaustividad (recall), y cuándo importa cada una?
- ¿Por qué la exactitud puede ser engañosa en datos desequilibrados?
- ¿Cómo se puntúan las predicciones probabilísticas?
Key theories
- Métricas de la matriz de confusión
- De los recuentos de verdaderos y falsos positivos y negativos surgen la exactitud, la precisión, la exhaustividad (recall) y la medida F, que exponen compensaciones que una única cifra de exactitud puede ocultar.
- Evaluación independiente del umbral
- La curva característica operativa del receptor y su área resumen el rendimiento de un clasificador en todos los umbrales de decisión, lo que resulta útil cuando el punto de operación no está fijado de antemano.
- Reglas de puntuación adecuadas
- Las reglas de puntuación, como la pérdida logarítmica, recompensan las estimaciones de probabilidad bien calibradas y se minimizan al informar las probabilidades verdaderas, fomentando una predicción probabilística honesta.
Clinical relevance
Elegir la métrica de rendimiento correcta es fundamental porque un modelo optimizado o juzgado por la medida equivocada puede tener un rendimiento deficiente en lo que realmente importa; en entornos desequilibrados o sensibles a los costos, como la detección de fraudes o enfermedades, la exactitud ingenua es especialmente engañosa, y las métricas deben reflejar las consecuencias reales de los errores.
History
Muchas métricas se originan fuera del aprendizaje automático, con la precisión y la exhaustividad (recall) provenientes de la recuperación de información y la característica operativa del receptor de la teoría de detección de señales. A medida que el aprendizaje automático se aplicó a problemas desequilibrados y de alto riesgo, la elección cuidadosa de las métricas y la presentación de múltiples métricas complementarias se convirtieron en una metodología estándar.
Key figures
- Trevor Hastie
- Tom Fawcett
- Christopher Bishop
Related topics
Seminal works
- hastie2009
- bishop2006
- murphy2012
Frequently asked questions
- ¿Por qué la exactitud puede ser engañosa?
- Si una clase es mucho más común que otra, un modelo que siempre predice la clase mayoritaria puede tener una alta exactitud, pero ser inútil para la clase rara. Métricas como la precisión, la exhaustividad (recall) y el área bajo la curva característica operativa del receptor revelan este tipo de fallo.
- ¿Cuál es la diferencia entre precisión y exhaustividad (recall)?
- La precisión es la fracción de predicciones positivas que son verdaderamente positivas, midiendo la fiabilidad de las predicciones positivas. La exhaustividad (recall) es la fracción de positivos reales que el modelo encuentra, midiendo cuántos casos reales detecta. Mejorar una a menudo se logra a expensas de la otra.