Evaluación y Selección de Modelos
La evaluación y selección de modelos son los métodos para estimar qué tan bien se generalizará un modelo y para elegir entre modelos y configuraciones en competencia.
Definition
La evaluación de modelos es la estimación del rendimiento esperado de un modelo en datos no vistos, y la selección de modelos es el uso de dichas estimaciones para elegir entre modelos, características o configuraciones de hiperparámetros; ambos se basan en la separación de los datos utilizados para el ajuste de los datos utilizados para la evaluación a fin de obtener estimaciones honestas de la generalización.
Scope
Esta área cubre la metodología empírica del aprendizaje automático: la estimación del error de generalización mediante la retención de datos y la validación cruzada, las métricas de rendimiento para la clasificación y la regresión, la búsqueda de buenos hiperparámetros y el control de la complejidad del modelo a través de la regularización. Aborda cómo evitar el sesgo optimista de la evaluación en los datos de entrenamiento y cómo comparar modelos de manera justa.
Sub-topics
Core questions
- ¿Cómo se puede estimar el error de generalización sin un optimismo excesivo?
- ¿Qué métricas capturan correctamente el rendimiento para una tarea determinada?
- ¿Cómo se eligen los hiperparámetros sin contaminar la evaluación?
- ¿Cómo se ajusta la complejidad del modelo a los datos disponibles?
Key theories
- Estimación honesta del error
- Estimar el rendimiento en datos no utilizados para el ajuste, a través de conjuntos de prueba retenidos o validación cruzada, es esencial porque el error medido en los datos de entrenamiento está sesgado de forma optimista.
- Selección de modelos y control de la complejidad
- La elección entre modelos requiere equilibrar el ajuste con la complejidad, utilizando estimaciones de validación o criterios de información para seleccionar el modelo que se espera que generalice mejor.
- Separación de selección y evaluación
- Los hiperparámetros deben ajustarse en datos de validación mantenidos separados del conjunto de prueba final, ya que la reutilización de los datos de prueba para la selección produce estimaciones de rendimiento excesivamente optimistas.
Clinical relevance
Una metodología de evaluación sólida es lo que hace que los resultados del aprendizaje automático sean confiables; fallas como las pruebas en datos de entrenamiento, el ajuste en el conjunto de prueba o la elección de métricas engañosas son causas comunes de modelos que parecen excelentes en el desarrollo pero fallan en la implementación, lo que hace que esta área sea esencial para una práctica responsable.
History
La validación cruzada fue formalizada por Stone y otros en la década de 1970 como una forma de estimar el error de predicción, y los criterios de información como los de Akaike y el criterio bayesiano proporcionaron reglas de selección de modelos basadas en la verosimilitud. A medida que el aprendizaje automático maduró, los protocolos rigurosos de entrenamiento, validación y prueba y una amplia gama de métricas de rendimiento se convirtieron en práctica estándar.
Debates
- Elegir la métrica correcta
- Una única cifra de precisión puede inducir a error en problemas desequilibrados o sensibles a los costos, lo que provoca un debate sobre qué métricas reflejan mejor los objetivos del mundo real y cómo informar el rendimiento de manera honesta.
Key figures
- Trevor Hastie
- Robert Tibshirani
- Mervyn Stone
Related topics
Seminal works
- hastie2009
- bishop2006
- murphy2012
Frequently asked questions
- ¿Por qué no medir el rendimiento en los datos de entrenamiento?
- Un modelo puede ajustarse estrechamente a sus datos de entrenamiento, incluido su ruido, por lo que el error de entrenamiento subestima el error en los datos nuevos. La evaluación honesta requiere datos que el modelo nunca haya visto, obtenidos a través de un conjunto de prueba retenido o validación cruzada.
- ¿Cuál es la diferencia entre un conjunto de validación y un conjunto de prueba?
- Un conjunto de validación se utiliza durante el desarrollo para ajustar hiperparámetros y seleccionar modelos, mientras que el conjunto de prueba se reserva para una única evaluación final. Mantenerlos separados evita que las elecciones realizadas durante el ajuste inflen el rendimiento reportado.