Statistische Power und Stichprobengröße
Statistische Power ist die Wahrscheinlichkeit, dass eine Studie einen Effekt einer bestimmten Größe entdeckt, wenn dieser Effekt tatsächlich existiert – formal ausgedrückt, eins minus der Rate des Typ-II-Fehlers. Die Bestimmung der Stichprobengröße ist der Planungsschritt, der festlegt, wie viele Teilnehmer benötigt werden, um eine angestrebte Power zu erreichen, unter Berücksichtigung der erwarteten Effektgröße, des gewählten Signifikanzniveaus und der Variabilität der Daten. Zusammen entscheiden sie, ob eine Studie groß genug ist, um ihrer Fragestellung eine faire Chance auf eine Antwort zu geben.
Definition
Statistische Power ist die Wahrscheinlichkeit, dass ein Test eine falsche Nullhypothese korrekt ablehnt (einen realen Effekt spezifischer Größe entdeckt); die Bestimmung der Stichprobengröße ist die Berechnung der Anzahl der Beobachtungen, die erforderlich sind, um eine angestrebte Power bei einem gegebenen Signifikanzniveau für eine angenommene Effektgröße und Variabilität zu erreichen.
Scope
Dieses Thema erläutert, was Power bedeutet, die vier miteinander verknüpften Größen einer Power-Berechnung (Effektgröße, Signifikanzniveau, Power und Stichprobengröße) sowie die Konsequenzen von Studien mit unzureichender Power. Es wird als Referenzmethodik für die Planung und Bewertung von Studien dargestellt, nicht als klinische Entscheidungsregel.
Core questions
- Wie wahrscheinlich ist es, dass die Studie den gesuchten Effekt entdeckt?
- Wie viele Teilnehmer werden benötigt, um eine angestrebte Power zu erreichen?
- Wie beeinflussen Effektgröße, Variabilität und Signifikanzniveau die Stichprobengröße?
- Was läuft schief, wenn eine Studie unterpowert ist?
Key concepts
- Statistische Power (1 minus Beta)
- Effektgröße
- Signifikanzniveau (Alpha)
- Variabilität und Standardabweichung
- A priori Stichprobenumfangsplanung
- Unterpowerte Studie
- Minimal klinisch wichtiger Unterschied
Mechanisms
Power, Signifikanzniveau, Effektgröße und Stichprobengröße sind so miteinander verknüpft, dass die Festlegung von drei Größen die vierte bestimmt. Bei einem gegebenen Signifikanzniveau steigt die Power, wenn die wahre Effektgröße zunimmt, die Variabilität abnimmt und die Stichprobengröße steigt. Die Berechnung der Stichprobengröße kehrt diese Beziehung um: Ausgehend von einer angenommenen Effektgröße (oft ein Minimum, das es wert ist, entdeckt zu werden), einem gewählten Signifikanzniveau und einer angestrebten Power – konventionell 80 % oder 90 % – wird die benötigte Anzahl der Beobachtungen ermittelt. Eine unzureichende Power erhöht nicht nur die Wahrscheinlichkeit, reale Effekte zu übersehen (Typ-II-Fehler), sondern macht auch signifikante Befunde wahrscheinlicher übertrieben oder falsch, da in einer kleinen Studie nur große, möglicherweise überhöhte Schätzungen die Schwelle überschreiten.
Clinical relevance
Ob eine Studie oder Untersuchung ausreichend gepowert war, beeinflusst, wie ihre Ergebnisse zu interpretieren sind: Ein nicht-signifikantes Ergebnis aus einer Studie mit unzureichender Power ist weitgehend uninformativ statt beruhigend, und die prospektive Begründung der Stichprobengröße ist ein erwartetes Element der Studienberichterstattung. Dieser Eintrag beschreibt die Argumentation bezüglich Power und Stichprobengröße für Bewertungs- und Designzwecke und ist keine Grundlage für individuelle diagnostische oder Behandlungsentscheidungen.
Evidence & guidelines
Berichtsstandards für klinische Studien und Beobachtungsstudien erwarten eine a priori Begründung der Stichprobengröße, und methodologische Übersichten haben die weitreichenden Schäden einer geringen Power dokumentiert. Button und Kollegen zeigten, dass chronisch unterpowerte Forschungsfelder unzuverlässige Literaturen hervorbringen, während Altman und Bland sowie der Leitfaden zur Fehlinterpretation von Greenland und Kollegen betonen, dass eine geringe Power viele uninformativen Nullergebnisse erklärt.
History
Power ist ein direktes Ergebnis des Neyman-Pearson-Testrahmens, der die Rate des Typ-II-Fehlers definierte, dessen Komplement die Power ist. Jacob Cohens Arbeit ab den 1960er Jahren, konsolidiert in seiner Monographie von 1988, popularisierte die systematische Power-Analyse und Effektgrößenkonventionen in den Gesundheits- und Verhaltenswissenschaften. Die Besorgnis über unterpowerte Forschung verstärkte sich in den Reproduzierbarkeitsdebatten der 2010er Jahre.
Debates
- Konsequenzen chronischer Unterpowerung
- Anhaltend geringe Power erhöht nicht nur die Rate falsch-negativer Ergebnisse, sondern reduziert auch die Wahrscheinlichkeit, dass ein statistisch signifikanter Befund einen wahren Effekt widerspiegelt, und übertreibt die Größe der berichteten Effekte, was die Zuverlässigkeit ganzer Literaturen untergräbt.
Key figures
- Jacob Cohen
- Jerzy Neyman
- Egon Pearson
- Douglas G. Altman
- John P. A. Ioannidis
Related topics
Seminal works
- cohen-1988
- button-2013
Frequently asked questions
- Was ist statistische Power einfach ausgedrückt?
- Es ist die Wahrscheinlichkeit, dass eine Studie einen realen Effekt einer bestimmten Größe entdeckt, wenn dieser Effekt tatsächlich existiert. Eine höhere Power bedeutet eine bessere Chance, einen wahren Effekt nicht zu übersehen; 80 % Power ist ein häufiges Ziel.
- Warum ist die Stichprobengröße so wichtig?
- Größere Stichproben erhöhen die Power und verringern die Ungenauigkeit von Schätzungen, sodass eine Studie den gesuchten Effekt zuverlässig entdecken kann. Eine zu kleine Stichprobe birgt das Risiko, sowohl reale Effekte zu übersehen als auch übertriebene signifikante Befunde zu produzieren.