Stichprobenverteilungen und der zentrale Grenzwertsatz
Eine Stichprobenverteilung ist die Wahrscheinlichkeitsverteilung einer Statistik, wie z. B. eines Stichprobenmittelwerts, über alle möglichen Stichproben einer gegebenen Größe. Der zentrale Grenzwertsatz besagt, dass für ausreichend große Stichproben die Stichprobenverteilung des Mittelwerts annähernd normal ist, unabhängig von der Form der zugrunde liegenden Daten. Zusammen erklären sie, warum normalbasierte Konfidenzintervalle und Tests so weit verbreitet funktionieren.
Definition
Eine Stichprobenverteilung ist die Verteilung der Werte, die eine Statistik über alle möglichen Stichproben fester Größe aus einer Population annehmen würde; der zentrale Grenzwertsatz besagt, dass sich die Stichprobenverteilung des Stichprobenmittelwerts mit zunehmender Stichprobengröße einer Normalverteilung annähert, unabhängig von der Form der Population.
Scope
Der Eintrag behandelt das Konzept einer Stichprobenverteilung, den Standardfehler als Maß ihrer Streuung, den zentralen Grenzwertsatz und die Rolle der Stichprobengröße sowie die Unterscheidung zwischen der Standardabweichung von Einzelwerten und dem Standardfehler einer Statistik. Er verknüpft diese Ideen mit Konfidenzintervallen und Hypothesentests. Es handelt sich um eine methodische Referenz und nicht um eine klinische Leitlinie.
Core questions
- Was ist die Stichprobenverteilung einer Statistik und warum ist sie wichtig?
- Wie unterscheidet sich der Standardfehler von der Standardabweichung?
- Was garantiert der zentrale Grenzwertsatz und unter welchen Bedingungen?
- Wie beeinflusst die Stichprobengröße die Präzision einer Schätzung?
Key concepts
- Statistik versus Parameter
- Stichprobenverteilung
- Standardfehler
- Standardfehler versus Standardabweichung
- Stichprobengröße und Präzision
- Annähernde Normalität des Mittelwerts
- Grundlage von Konfidenzintervallen und Tests
Key theories
- Zentraler Grenzwertsatz
- Für unabhängige Beobachtungen aus einer Population mit endlicher Varianz tendiert die Verteilung des Stichprobenmittelwerts mit zunehmender Stichprobengröße zu einer Normalverteilung, unabhängig von der Form der Population; dies rechtfertigt normalbasierte Inferenz für Mittelwerte, selbst wenn einzelne Messungen nicht normalverteilt sind.
Mechanisms
Würden wiederholt Stichproben gleicher Größe aus einer Population gezogen, würde eine Statistik wie der Mittelwert von Stichprobe zu Stichprobe variieren; die Verteilung dieser Werte ist die Stichprobenverteilung, und ihre Standardabweichung ist der Standardfehler. Für einen Stichprobenmittelwert entspricht der Standardfehler der Populationsstandardabweichung geteilt durch die Quadratwurzel der Stichprobengröße, sodass die Präzision mit wachsenden Stichproben zunimmt, jedoch nur mit der Quadratwurzel von n. Der zentrale Grenzwertsatz fügt hinzu, dass für ausreichend große Stichproben diese Stichprobenverteilung annähernd normal ist, selbst wenn die Daten selbst schief sind, vorausgesetzt, die Beobachtungen sind unabhängig und die Varianz ist endlich. Dies ist der Motor der klassischen Inferenz: Ein Konfidenzintervall für einen Mittelwert wird konstruiert, indem eine bestimmte Anzahl von Standardfehlern vom Schätzwert unter annähernder Normalität abgetragen wird, und viele Hypothesentests vergleichen einen Schätzwert mit seiner Stichprobenverteilung. Der Standardfehler, der mit der Stichprobengröße schrumpft, muss von der Standardabweichung der einzelnen Beobachtungen unterschieden werden, die die Populationsstreuung schätzt und nicht schrumpft.
Clinical relevance
Konfidenzintervalle und p-Werte, die in klinischen und Public-Health-Studien berichtet werden, basieren auf der Stichprobenverteilung des Schätzwerts und dem zentralen Grenzwertsatz. Das Verständnis dieser Konzepte hilft bei der Beurteilung der Präzision der berichteten Effekte. Dieser Eintrag ist methodischer Hintergrund und keine Grundlage für individuelle klinische Entscheidungen.
History
Frühe Formen des zentralen Grenzwertsatzes erschienen in de Moivres Normalapproximation der Binomialverteilung und in Laplaces Arbeit um 1810, und rigorose allgemeine Bedingungen wurden von Ljapunow und anderen um 1900 etabliert. Die Perspektive der Stichprobenverteilung wurde im frühen 20. Jahrhundert zentral für die Inferenz und bleibt die Standardbegründung für normalbasierte Konfidenzintervalle und Tests in der Biostatistik.
Debates
- Wie groß muss eine Stichprobe sein, damit der zentrale Grenzwertsatz anwendbar ist?
- Die Annäherung verbessert sich mit der Stichprobengröße, aber wie groß „groß genug“ ist, hängt davon ab, wie schief die Daten sind; für deutlich schiefe Verteilungen sind viel größere Stichproben erforderlich, bevor die Verteilung des Mittelwerts akzeptabel normal ist, sodass keine einzelne Faustregel für alle Fälle passt.
Key figures
- Pierre-Simon Laplace
- Abraham de Moivre
- Aleksandr Lyapunov
Related topics
Seminal works
- altman-bland-2005-se
- rosner-2015
Frequently asked questions
- Was ist der Unterschied zwischen einer Standardabweichung und einem Standardfehler?
- Eine Standardabweichung misst die Streuung einzelner Beobachtungen, während ein Standardfehler die Streuung einer Statistik, wie z. B. eines Stichprobenmittelwerts, über Stichproben hinweg misst; der Standardfehler nimmt mit zunehmender Stichprobengröße ab, während die Standardabweichung eine feste Populationsgröße schätzt.
- Warum können wir die Normalverteilung für einen Mittelwert verwenden, auch wenn die Daten schief sind?
- Der zentrale Grenzwertsatz besagt, dass die Stichprobenverteilung des Mittelwerts mit zunehmender Stichprobengröße annähernd normal wird, unabhängig von der Form der Daten. Daher sind normalbasierte Methoden für den Mittelwert oft gültig bei ausreichend großen Stichproben, selbst wenn einzelne Werte nicht normalverteilt sind.