Kreuzvalidierung und Resampling
Kreuzvalidierung und Resampling schätzen den Generalisierungsfehler eines Modells, indem sie die verfügbaren Daten wiederholt partitionieren oder resampeln, wodurch begrenzte Datensätze effizient genutzt werden.
Definition
Die Kreuzvalidierung schätzt den Generalisierungsfehler, indem sie Daten in Folds partitioniert, auf einigen Folds trainiert und auf dem zurückgehaltenen Fold testet und über Rotationen mittelt; Resampling im weiteren Sinne, einschließlich des Bootstraps, zieht wiederholt Untergruppen der Daten, um die Leistung und Variabilität eines Lernverfahrens zu schätzen.
Scope
Dieses Thema behandelt Methoden zur Datenwiederverwendung für die Modellbewertung: den Train-Test-Split, k-fache und Leave-One-Out-Kreuzvalidierung, stratifizierte und verschachtelte Kreuzvalidierung zur Abstimmung sowie den Bootstrap zur Schätzung der Unsicherheit. Es befasst sich mit der Verzerrung und Varianz dieser Schätzer und Fallstricken wie Datenlecks, die sie ungültig machen können.
Core questions
- Wie schätzt die k-fache Kreuzvalidierung den Generalisierungsfehler?
- Welche Bias-Varianz-Kompromisse ergeben sich bei unterschiedlichen Fold-Anzahlen?
- Wie hält die verschachtelte Kreuzvalidierung Abstimmung und Bewertung getrennt?
- Wie schätzt der Bootstrap die Variabilität einer Schätzung?
Key theories
- k-fache Kreuzvalidierung
- Die Aufteilung der Daten in k Folds und die Rotation, welcher Fold zurückgehalten wird, liefert eine Schätzung des Generalisierungsfehlers, die alle Daten sowohl für das Training als auch für das Testen verwendet und Rechenaufwand gegen eine zuverlässigere Schätzung eintauscht.
- Verschachtelte Kreuzvalidierung
- Wenn Hyperparameter abgestimmt werden, wählt eine innere Kreuzvalidierungsschleife diese aus, und eine äußere Schleife bewertet die Leistung, wodurch die optimistische Verzerrung vermieden wird, die durch die Abstimmung und Bewertung auf denselben Daten entsteht.
- Der Bootstrap
- Das wiederholte Resampling der Daten mit Zurücklegen schätzt die Stichprobenverteilung einer Statistik oder Modellleistung und liefert Konfidenzintervalle und Fehlerschätzungen ohne Verteilungsannahmen.
Clinical relevance
Die Kreuzvalidierung ist das Standardwerkzeug zur Schätzung der Modellleistung und zur Modellauswahl bei begrenzten Daten, und der Bootstrap wird häufig zur Quantifizierung der Unsicherheit eingesetzt; ihre Fehlinterpretation, beispielsweise durch das Einschleusen von Testinformationen in das Training oder die Abstimmung auf den Bewertungsdaten, ist eine häufige und schwerwiegende Ursache für überhöhte Ergebnisse.
History
Die Kreuzvalidierung wurde in den 1970er Jahren von Stone und Geisser als formale Methode zur Schätzung des Vorhersagefehlers entwickelt. Efron führte den Bootstrap 1979 ein, und zusammen wurden diese Resampling-Methoden für die Bewertung und Unsicherheitsschätzung in Statistik und maschinellem Lernen unverzichtbar.
Key figures
- Mervyn Stone
- Bradley Efron
- Robert Tibshirani
Related topics
Seminal works
- hastie2009
- efron1993
- murphy2012
Frequently asked questions
- Was bewirkt die k-fache Kreuzvalidierung?
- Sie teilt die Daten in k gleiche Teile und trainiert das Modell dann k-mal, wobei jedes Mal ein anderer Teil zum Testen zurückgehalten und der Rest zum Training verwendet wird. Das Mitteln der k Testergebnisse liefert eine Schätzung, wie das Modell auf ungesehenen Daten abschneiden wird.
- Warum ist manchmal eine verschachtelte Kreuzvalidierung erforderlich?
- Wenn Sie Hyperparameter abstimmen und die Leistung mit derselben Kreuzvalidierung messen, ist die Schätzung optimistisch, da die Auswahl an diese Daten angepasst wurde. Die verschachtelte Kreuzvalidierung verwendet eine innere Schleife zur Abstimmung und eine äußere Schleife zur Bewertung, wodurch die beiden getrennt bleiben.