Métodos de Conjunto
Los métodos de conjunto combinan muchos modelos individuales en un único predictor, reduciendo la varianza o el sesgo para lograr una precisión que supera a la de cualquier miembro individual.
Definition
Un método de conjunto entrena una colección de modelos base y combina sus predicciones, por ejemplo, mediante promediación o votación ponderada; los conjuntos de tipo bagging reducen la varianza promediando sobre modelos aleatorizados, mientras que los conjuntos de tipo boosting reducen el sesgo enfatizando secuencialmente ejemplos previamente mal clasificados.
Scope
Este tema abarca técnicas que agregan múltiples aprendices: el bagging y la agregación bootstrap, los bosques aleatorios que aleatorizan tanto los datos como las características, y los métodos de boosting como AdaBoost y el gradient boosting que ajustan modelos secuencialmente para corregir errores previos. Aborda por qué los conjuntos reducen el error, los efectos de sesgo-varianza del promedio frente al boosting, y el papel de la diversidad del modelo.
Core questions
- ¿Por qué la combinación de muchos modelos a menudo supera al mejor modelo individual?
- ¿Cómo difieren el bagging y el boosting en el tipo de error que reducen?
- ¿Qué papel juega la diversidad entre los aprendices base?
- ¿Cómo ajusta el gradient boosting los modelos aditivos etapa por etapa?
Key theories
- Bagging y reducción de varianza
- El promedio de las predicciones de modelos entrenados con remuestreos bootstrap reduce la varianza sin aumentar mucho el sesgo, lo cual es más efectivo para aprendices base inestables y de alta varianza, como los árboles de decisión profundos.
- Bosques aleatorios
- Los bosques aleatorios construyen muchos árboles descorrelacionados remuestreando datos y restringiendo aleatoriamente las características consideradas en cada división, produciendo un conjunto robusto y preciso con estimaciones incorporadas de error e importancia de las características.
- Boosting como modelado aditivo
- El boosting ajusta los aprendices base secuencialmente, corrigiendo cada uno los errores residuales del conjunto actual, lo que puede entenderse como una minimización por etapas de una función de pérdida y tiende a reducir el sesgo.
Clinical relevance
Los conjuntos basados en árboles, especialmente los bosques aleatorios y los árboles potenciados por gradiente, se encuentran entre los métodos más fiables y precisos para datos tabulares y rutinariamente ganan competiciones de predicción e impulsan sistemas industriales; sus medidas incorporadas de importancia de las características también los hacen útiles para comprender qué entradas impulsan una predicción.
History
El bagging fue introducido por Breiman en 1996, y AdaBoost por Freund y Schapire poco después demostró que los aprendices débiles podían ser potenciados para convertirse en fuertes. Los bosques aleatorios de Breiman en 2001 y las máquinas de boosting de gradiente de Friedman unificaron y extendieron estas ideas, haciendo de los conjuntos el enfoque estándar para las tareas de predicción estructurada.
Key figures
- Leo Breiman
- Robert Schapire
- Yoav Freund
- Jerome Friedman
Related topics
Seminal works
- breiman2001
- hastie2009
- freund1997
Frequently asked questions
- ¿Cuál es la diferencia entre bagging y boosting?
- El bagging entrena modelos base de forma independiente en datos remuestreados y los promedia para reducir la varianza. El boosting entrena modelos secuencialmente, con cada nuevo modelo centrándose en los errores del conjunto actual, lo que reduce el sesgo. El bagging se paraleliza de forma natural; el boosting es inherentemente secuencial.
- ¿Por qué los bosques aleatorios rara vez sobreajustan gravemente?
- Cada árbol se construye sobre una muestra bootstrap diferente utilizando un subconjunto aleatorio de características, por lo que los árboles están descorrelacionados. El promedio de muchos árboles descorrelacionados cancela gran parte de su varianza individual, y añadir más árboles no aumenta el sobreajuste.