Validación Cruzada y Remuestreo
La validación cruzada y el remuestreo estiman el error de generalización de un modelo al particionar o remuestrear repetidamente los datos disponibles, haciendo un uso eficiente de conjuntos de datos limitados.
Definition
La validación cruzada estima el error de generalización al particionar los datos en pliegues, entrenando en algunos pliegues y probando en el pliegue retenido, y promediando las rotaciones; el remuestreo de manera más amplia, incluyendo el bootstrap, extrae repetidamente subconjuntos de los datos para estimar el rendimiento y la variabilidad de un procedimiento de aprendizaje.
Scope
Este tema cubre los métodos de reutilización de datos para evaluar modelos: la división entrenamiento-prueba, la validación cruzada k-fold y leave-one-out, la validación cruzada estratificada y anidada para el ajuste, y el bootstrap para estimar la incertidumbre. Aborda el sesgo y la varianza de estos estimadores y las trampas como la fuga de datos que pueden invalidarlos.
Core questions
- ¿Cómo estima la validación cruzada k-fold el error de generalización?
- ¿Cuáles son las compensaciones de sesgo-varianza de diferentes recuentos de pliegues?
- ¿Cómo mantiene la validación cruzada anidada la sintonización y la evaluación separadas?
- ¿Cómo estima el bootstrap la variabilidad de una estimación?
Key theories
- Validación cruzada k-fold
- Dividir los datos en k pliegues y rotar qué pliegue se retiene proporciona una estimación del error de generalización que utiliza todos los datos tanto para el entrenamiento como para la prueba, intercambiando el cálculo por una estimación más fiable.
- Validación cruzada anidada
- Cuando se ajustan los hiperparámetros, un bucle interno de validación cruzada los selecciona y un bucle externo evalúa el rendimiento, evitando el sesgo optimista que surge de ajustar y evaluar con los mismos datos.
- El bootstrap
- El remuestreo de los datos con reemplazo muchas veces estima la distribución muestral de una estadística o el rendimiento del modelo, proporcionando intervalos de confianza y estimaciones de error sin suposiciones distribucionales.
Clinical relevance
La validación cruzada es la herramienta estándar para estimar el rendimiento del modelo y seleccionar modelos cuando los datos son limitados, y el bootstrap se utiliza ampliamente para cuantificar la incertidumbre; su mala aplicación, por ejemplo, al filtrar información de prueba en el entrenamiento o al ajustar los datos de evaluación, es una causa frecuente y grave de resultados exagerados.
History
La validación cruzada fue desarrollada como un método formal para estimar el error de predicción por Stone y Geisser en la década de 1970. Efron introdujo el bootstrap en 1979, y juntos estos métodos de remuestreo se volvieron indispensables para la evaluación y la estimación de la incertidumbre en la estadística y el aprendizaje automático.
Key figures
- Mervyn Stone
- Bradley Efron
- Robert Tibshirani
Related topics
Seminal works
- hastie2009
- efron1993
- murphy2012
Frequently asked questions
- ¿Qué hace la validación cruzada k-fold?
- Divide los datos en k partes iguales, luego entrena el modelo k veces, cada vez reteniendo una parte diferente para la prueba y usando el resto para el entrenamiento. El promedio de los k resultados de la prueba proporciona una estimación de cómo se desempeñará el modelo en datos no vistos.
- ¿Por qué a veces se necesita la validación cruzada anidada?
- Si se ajustan los hiperparámetros y se mide el rendimiento con la misma validación cruzada, la estimación es optimista porque las elecciones se ajustaron a esos datos. La validación cruzada anidada utiliza un bucle interno para el ajuste y un bucle externo para la evaluación, manteniendo ambos separados.