Warum nicht einfach den Fehler auf den Daten messen, die zum Anpassen des Modells verwendet wurden?

Der In-Sample-Fehler ist optimistisch, da das Modell genau auf diese Daten abgestimmt wurde, sodass es den Fehler bei neuen Daten unterschätzt. Die Kreuzvalidierung bewertet Vorhersagen auf Daten, die das Modell während der Anpassung nicht gesehen hat, was eine ehrlichere Schätzung liefert.

Wie viele Folds sollte ich verwenden?

Fünf oder zehn Folds sind gängige Optionen, die Bias und Varianz ausgleichen und den Rechenaufwand überschaubar halten. Leave-One-Out verwendet so viele Folds wie Beobachtungen, was einen geringen Bias, aber eine höhere Varianz und höhere Kosten mit sich bringt.

Kreuzvalidierung

Die Kreuzvalidierung schätzt die Vorhersagefähigkeit eines Modells für neue Daten, indem sie es wiederholt auf einem Teil der Stichprobe anpasst und den Fehler auf dem zurückgehaltenen Rest misst.

Thema finden mit PaperMindDemnächstFind papers & topics

Tools & resources

Folien herunterladen

Learn & explore

VideoDemnächst

Definition

Kreuzvalidierung ist ein Resampling-Verfahren, das den Out-of-Sample-Vorhersagefehler eines Modells schätzt, indem es die Daten in komplementäre Untergruppen aufteilt, auf einigen Untergruppen anpasst und den Vorhersagefehler auf den anderen bewertet und über die Partitionen mittelt.

Scope

Dieses Thema behandelt die Leave-One-Out- und k-fache Kreuzvalidierung, die Validierungsset- und wiederholten Kreuzvalidierungsschemata, deren Verwendung für die Modellauswahl und die Wahl von Tuning-Parametern, den Bias-Varianz-Kompromiss bei der Fehlerschätzung sowie Fallstricke wie Informationslecks und den Optimismus des In-Sample-Fehlers. Ihre Rolle bei der Resampling-basierten Bewertung wird hervorgehoben.

Core questions

Wie schätzt das Zurückhalten von Daten und deren Vorhersage den Generalisierungsfehler?
Welche Kompromisse unterscheiden Leave-One-Out von der k-fachen Kreuzvalidierung?
Wie wird Kreuzvalidierung zur Modellauswahl und zur Abstimmung von Hyperparametern eingesetzt?
Welche Praktiken, wie die Vermeidung von Informationslecks, sind für gültige Schätzungen erforderlich?

Key concepts

k-fache Partitionierung
Leave-One-Out-Kreuzvalidierung
Validierungsset
Generalisierungsfehler
Modellauswahl
Informationslecks

Key theories

Kreuzvalidierungsbasierte Bewertung: Das Anpassen an einem Teil der Daten und die Bewertung an einem disjunkten Teil liefert eine Schätzung des Vorhersagefehlers, die, über die Folds gemittelt, den Fehler des Modells auf unabhängigen zukünftigen Daten annähert.
Bias-Varianz bei der Fehlerschätzung: Die Leave-One-Out-Kreuzvalidierung ist nahezu unverzerrt, kann aber eine hohe Varianz aufweisen, während die k-fache Kreuzvalidierung mit moderatem k einen kleinen Aufwärts-Bias gegen eine geringere Varianz eintauscht, was die übliche Wahl von fünf oder zehn Folds begründet.

Clinical relevance

Die Kreuzvalidierung ist das Standardwerkzeug zur Auswahl zwischen Modellen, zur Abstimmung von Regularisierung und anderen Hyperparametern sowie zur Berichterstattung über eine ehrliche Vorhersageleistung; sie ist zentral für statistisches Lernen und maschinelles Lernen in den datengesteuerten Wissenschaften.

History

Kreuzvalidierungs-Ideen wurden 1974 von Stone und Geisser als prinzipielle Methode zur Bewertung und Auswahl von Vorhersagemodellen formalisiert; das explosionsartige Wachstum des statistischen und maschinellen Lernens machte die k-fache Kreuzvalidierung zu einem routinemäßigen Standard für die Modellbewertung.

Debates

Bias und Varianz der Kreuzvalidierungsschätzung: Es gibt eine fortlaufende Diskussion darüber, wie viele Folds verwendet werden sollten und wie gültige Unsicherheitsschätzungen für den kreuzvalidierten Fehler erhalten werden können, da sich die Folds überlappen und die resultierenden Fehlerschätzungen korreliert sind.

Key figures

Mervyn Stone
Seymour Geisser
Trevor Hastie
Robert Tibshirani

Seminal works

stone1974
hastie2009

Frequently asked questions

Warum nicht einfach den Fehler auf den Daten messen, die zum Anpassen des Modells verwendet wurden?: Der In-Sample-Fehler ist optimistisch, da das Modell genau auf diese Daten abgestimmt wurde, sodass es den Fehler bei neuen Daten unterschätzt. Die Kreuzvalidierung bewertet Vorhersagen auf Daten, die das Modell während der Anpassung nicht gesehen hat, was eine ehrlichere Schätzung liefert.
Wie viele Folds sollte ich verwenden?: Fünf oder zehn Folds sind gängige Optionen, die Bias und Varianz ausgleichen und den Rechenaufwand überschaubar halten. Leave-One-Out verwendet so viele Folds wie Beobachtungen, was einen geringen Bias, aber eine höhere Varianz und höhere Kosten mit sich bringt.