Was ist der Unterschied zwischen Bagging und Boosting?

Bagging trainiert Basismodelle unabhängig voneinander auf neu gesampelten Daten und mittelt sie, um die Varianz zu reduzieren. Boosting trainiert Modelle sequenziell, wobei sich jedes neue Modell auf die Fehler des aktuellen Ensembles konzentriert, was den Bias reduziert. Bagging lässt sich natürlich parallelisieren; Boosting ist von Natur aus sequenziell.

Warum überanpassen sich Random Forests selten stark?

Jeder Baum wird auf einer anderen Bootstrap-Stichprobe unter Verwendung einer zufälligen Teilmenge von Merkmalen erstellt, sodass die Bäume dekorreliert sind. Das Mitteln vieler dekorrelierter Bäume hebt einen Großteil ihrer individuellen Varianz auf, und das Hinzufügen weiterer Bäume erhöht die Überanpassung nicht.

Ensemble-Methoden

Ensemble-Methoden kombinieren viele einzelne Modelle zu einem einzigen Prädiktor, wodurch Varianz oder Bias reduziert werden, um eine Genauigkeit zu erzielen, die die jedes einzelnen Mitglieds übertrifft.

Thema finden mit PaperMindDemnächstFind papers & topics

Tools & resources

Folien herunterladen

Learn & explore

VideoDemnächst

Definition

Eine Ensemble-Methode trainiert eine Sammlung von Basismodellen und kombiniert deren Vorhersagen, beispielsweise durch Mittelwertbildung oder gewichtete Abstimmung; Ensembles im Bagging-Stil reduzieren die Varianz durch Mittelwertbildung über randomisierte Modelle, während Ensembles im Boosting-Stil den Bias reduzieren, indem sie sequenziell zuvor falsch klassifizierte Beispiele stärker berücksichtigen.

Scope

Dieses Thema behandelt Techniken, die mehrere Lernende aggregieren: Bagging und Bootstrap-Aggregation, Random Forests, die sowohl Daten als auch Merkmale randomisieren, und Boosting-Methoden wie AdaBoost und Gradient Boosting, die Modelle sequenziell anpassen, um frühere Fehler zu korrigieren. Es wird erörtert, warum Ensembles Fehler reduzieren, die Bias-Varianz-Effekte von Mittelwertbildung versus Boosting und die Rolle der Modellvielfalt.

Core questions

Warum übertrifft die Kombination vieler Modelle oft das beste Einzelmodell?
Wie unterscheiden sich Bagging und Boosting in Bezug auf den Fehler, den sie reduzieren?
Welche Rolle spielt die Diversität unter den Basis-Lernenden?
Wie passt Gradient Boosting additive Modelle schrittweise an?

Key theories

Bagging und Varianzreduktion: Die Mittelwertbildung von Vorhersagen von Modellen, die auf Bootstrap-Resamples trainiert wurden, reduziert die Varianz, ohne den Bias stark zu erhöhen, was am effektivsten für instabile, hochvariable Basis-Lernende wie tiefe Entscheidungsbäume ist.
Random Forests: Random Forests erstellen viele dekorrelierte Bäume, indem sie Daten neu sampeln und die bei jeder Aufteilung berücksichtigten Merkmale zufällig einschränken, was ein robustes, genaues Ensemble mit integrierten Schätzungen von Fehler und Merkmalsbedeutung ergibt.
Boosting als additives Modellieren: Boosting passt Basis-Lernende sequenziell an, wobei jeder die Restfehler des aktuellen Ensembles korrigiert, was als schrittweise Minimierung einer Verlustfunktion verstanden werden kann und tendenziell den Bias reduziert.

Clinical relevance

Baumbasierte Ensembles, insbesondere Random Forests und Gradient-Boosted Trees, gehören zu den zuverlässigsten und genauesten Methoden für tabellarische Daten und gewinnen routinemäßig Vorhersagewettbewerbe und treiben industrielle Systeme an; ihre integrierten Maße für die Merkmalsbedeutung machen sie auch nützlich, um zu verstehen, welche Eingaben eine Vorhersage steuern.

History

Bagging wurde 1996 von Breiman eingeführt, und AdaBoost von Freund und Schapire kurz darauf zeigte, dass schwache Lernende zu starken Lernenden geboostet werden konnten. Breimans Random Forests im Jahr 2001 und Friedmans Gradient Boosting Machines vereinten und erweiterten diese Ideen, wodurch Ensembles zum Standardansatz für strukturierte Vorhersageaufgaben wurden.

Key figures

Leo Breiman
Robert Schapire
Yoav Freund
Jerome Friedman

Seminal works

breiman2001
hastie2009
freund1997

Frequently asked questions

Was ist der Unterschied zwischen Bagging und Boosting?: Bagging trainiert Basismodelle unabhängig voneinander auf neu gesampelten Daten und mittelt sie, um die Varianz zu reduzieren. Boosting trainiert Modelle sequenziell, wobei sich jedes neue Modell auf die Fehler des aktuellen Ensembles konzentriert, was den Bias reduziert. Bagging lässt sich natürlich parallelisieren; Boosting ist von Natur aus sequenziell.
Warum überanpassen sich Random Forests selten stark?: Jeder Baum wird auf einer anderen Bootstrap-Stichprobe unter Verwendung einer zufälligen Teilmenge von Merkmalen erstellt, sodass die Bäume dekorreliert sind. Das Mitteln vieler dekorrelierter Bäume hebt einen Großteil ihrer individuellen Varianz auf, und das Hinzufügen weiterer Bäume erhöht die Überanpassung nicht.