Resampling-Methoden
Resampling-Methoden bewerten die Unsicherheit einer Statistik, indem sie wiederholt neue Stichproben aus den beobachteten Daten ziehen und dabei analytische Formeln für Standardfehler und Verteilungen durch Berechnungen ersetzen.
Definition
Resampling-Methoden sind computerintensive Inferenztechniken, die die Stichprobenverteilung, den Bias, die Varianz oder den Vorhersagefehler einer Statistik schätzen, indem sie diese wiederholt auf Stichproben, die aus den beobachteten Daten gezogen wurden, oder auf Partitionen davon neu berechnen.
Scope
Dieser Bereich umfasst den Bootstrap und seine Konfidenzintervalle, das Jackknife zur Schätzung von Bias und Varianz, Permutations- und Randomisierungstests für Hypothesentests sowie die Kreuzvalidierung zur Schätzung des Vorhersagefehlers. Die vereinheitlichende Idee ist, dass die empirische Verteilung der Daten, die durch Resampling wiederverwendet wird, eine unbekannte Populationsverteilung ersetzt.
Sub-topics
Core questions
- Wie kann die wiederholte Resampling der beobachteten Daten die Stichprobenverteilung einer Statistik annähern?
- Was unterscheidet den Bootstrap, das Jackknife, Permutationstests und die Kreuzvalidierung in Ziel und Mechanismus?
- Wann sind Resampling-Approximationen erfolgreich und wann versagen sie?
- Wie werden Resampling-Methoden verwendet, um Konfidenzintervalle und Tests ohne parametrische Annahmen zu erstellen?
Key theories
- Das Plug-in-Prinzip
- Resampling ersetzt die unbekannte Populationsverteilung durch die empirische Verteilung der Stichprobe, sodass Größen wie Standardfehler und Bias durch wiederholtes Ziehen von Stichproben aus den Daten selbst berechnet werden.
- Resampling für die Inferenz
- Bootstrap-Resampling schätzt Variabilität und Konfidenzintervalle, Permutations-Resampling erzeugt exakte oder approximative Nullverteilungen, und Kreuzvalidierung verwendet Partitionen der Daten wieder, um den Out-of-Sample-Fehler zu schätzen.
Clinical relevance
Resampling-Methoden liefern Standardfehler, Konfidenzintervalle und Tests für komplizierte Statistiken, für die keine handhabbare Formel existiert, und bieten zuverlässige Schätzungen der Vorhersagegenauigkeit für statistische Modelle und Modelle des maschinellen Lernens; ihre minimalen Annahmen machen sie in den empirischen Wissenschaften allgegenwärtig.
History
Quenouille und Tukey entwickelten das Jackknife in den 1940er und 1950er Jahren; Efron führte den Bootstrap 1979 ein und vereinte ihn mit dem Jackknife, und der Aufstieg kostengünstiger Computer in den 1980er und 1990er Jahren machte Resampling zu einer gängigen Alternative zur asymptotischen Theorie.
Key figures
- Bradley Efron
- Robert Tibshirani
- Anthony Davison
- Maurice Quenouille
Related topics
Seminal works
- efron1993
- efron1979
Frequently asked questions
- Warum werden Resampling-Methoden als computerintensiv bezeichnet?
- Sie ersetzen geschlossene Ableitungen durch Tausende von wiederholten Neuberechnungen einer Statistik auf resampelten Daten. Dies ist nur mit einem Computer praktikabel, doch im Gegenzug erfordern die Methoden wesentlich weniger Modellannahmen.
- Funktionieren Resampling-Methoden immer?
- Nein. Sie können bei Statistiken versagen, die von extremen Ordnungsstatistiken abhängen, bei sehr kleinen Stichproben oder unter starker Abhängigkeit. Das Wissen um diese Versagensmodi ist Teil des verantwortungsvollen Einsatzes der Methoden.