Was ist statistische Power einfach ausgedrückt?

Es ist die Wahrscheinlichkeit, dass eine Studie einen realen Effekt einer bestimmten Größe entdeckt, wenn dieser Effekt tatsächlich existiert. Eine höhere Power bedeutet eine bessere Chance, einen wahren Effekt nicht zu übersehen; 80 % Power ist ein häufiges Ziel.

Warum ist die Stichprobengröße so wichtig?

Größere Stichproben erhöhen die Power und verringern die Ungenauigkeit von Schätzungen, sodass eine Studie den gesuchten Effekt zuverlässig entdecken kann. Eine zu kleine Stichprobe birgt das Risiko, sowohl reale Effekte zu übersehen als auch übertriebene signifikante Befunde zu produzieren.

Statistische Power und Stichprobengröße

Statistische Power ist die Wahrscheinlichkeit, dass eine Studie einen Effekt einer bestimmten Größe entdeckt, wenn dieser Effekt tatsächlich existiert – formal ausgedrückt, eins minus der Rate des Typ-II-Fehlers. Die Bestimmung der Stichprobengröße ist der Planungsschritt, der festlegt, wie viele Teilnehmer benötigt werden, um eine angestrebte Power zu erreichen, unter Berücksichtigung der erwarteten Effektgröße, des gewählten Signifikanzniveaus und der Variabilität der Daten. Zusammen entscheiden sie, ob eine Studie groß genug ist, um ihrer Fragestellung eine faire Chance auf eine Antwort zu geben.

Thema finden mit PaperMindDemnächstFind papers & topics

Tools & resources

Folien herunterladen

Learn & explore

VideoDemnächst

Definition

Statistische Power ist die Wahrscheinlichkeit, dass ein Test eine falsche Nullhypothese korrekt ablehnt (einen realen Effekt spezifischer Größe entdeckt); die Bestimmung der Stichprobengröße ist die Berechnung der Anzahl der Beobachtungen, die erforderlich sind, um eine angestrebte Power bei einem gegebenen Signifikanzniveau für eine angenommene Effektgröße und Variabilität zu erreichen.

Scope

Dieses Thema erläutert, was Power bedeutet, die vier miteinander verknüpften Größen einer Power-Berechnung (Effektgröße, Signifikanzniveau, Power und Stichprobengröße) sowie die Konsequenzen von Studien mit unzureichender Power. Es wird als Referenzmethodik für die Planung und Bewertung von Studien dargestellt, nicht als klinische Entscheidungsregel.

Core questions

Wie wahrscheinlich ist es, dass die Studie den gesuchten Effekt entdeckt?
Wie viele Teilnehmer werden benötigt, um eine angestrebte Power zu erreichen?
Wie beeinflussen Effektgröße, Variabilität und Signifikanzniveau die Stichprobengröße?
Was läuft schief, wenn eine Studie unterpowert ist?

Key concepts

Statistische Power (1 minus Beta)
Effektgröße
Signifikanzniveau (Alpha)
Variabilität und Standardabweichung
A priori Stichprobenumfangsplanung
Unterpowerte Studie
Minimal klinisch wichtiger Unterschied

Mechanisms

Power, Signifikanzniveau, Effektgröße und Stichprobengröße sind so miteinander verknüpft, dass die Festlegung von drei Größen die vierte bestimmt. Bei einem gegebenen Signifikanzniveau steigt die Power, wenn die wahre Effektgröße zunimmt, die Variabilität abnimmt und die Stichprobengröße steigt. Die Berechnung der Stichprobengröße kehrt diese Beziehung um: Ausgehend von einer angenommenen Effektgröße (oft ein Minimum, das es wert ist, entdeckt zu werden), einem gewählten Signifikanzniveau und einer angestrebten Power – konventionell 80 % oder 90 % – wird die benötigte Anzahl der Beobachtungen ermittelt. Eine unzureichende Power erhöht nicht nur die Wahrscheinlichkeit, reale Effekte zu übersehen (Typ-II-Fehler), sondern macht auch signifikante Befunde wahrscheinlicher übertrieben oder falsch, da in einer kleinen Studie nur große, möglicherweise überhöhte Schätzungen die Schwelle überschreiten.

Clinical relevance

Ob eine Studie oder Untersuchung ausreichend gepowert war, beeinflusst, wie ihre Ergebnisse zu interpretieren sind: Ein nicht-signifikantes Ergebnis aus einer Studie mit unzureichender Power ist weitgehend uninformativ statt beruhigend, und die prospektive Begründung der Stichprobengröße ist ein erwartetes Element der Studienberichterstattung. Dieser Eintrag beschreibt die Argumentation bezüglich Power und Stichprobengröße für Bewertungs- und Designzwecke und ist keine Grundlage für individuelle diagnostische oder Behandlungsentscheidungen.

Evidence & guidelines

Berichtsstandards für klinische Studien und Beobachtungsstudien erwarten eine a priori Begründung der Stichprobengröße, und methodologische Übersichten haben die weitreichenden Schäden einer geringen Power dokumentiert. Button und Kollegen zeigten, dass chronisch unterpowerte Forschungsfelder unzuverlässige Literaturen hervorbringen, während Altman und Bland sowie der Leitfaden zur Fehlinterpretation von Greenland und Kollegen betonen, dass eine geringe Power viele uninformativen Nullergebnisse erklärt.

History

Power ist ein direktes Ergebnis des Neyman-Pearson-Testrahmens, der die Rate des Typ-II-Fehlers definierte, dessen Komplement die Power ist. Jacob Cohens Arbeit ab den 1960er Jahren, konsolidiert in seiner Monographie von 1988, popularisierte die systematische Power-Analyse und Effektgrößenkonventionen in den Gesundheits- und Verhaltenswissenschaften. Die Besorgnis über unterpowerte Forschung verstärkte sich in den Reproduzierbarkeitsdebatten der 2010er Jahre.

Debates

Konsequenzen chronischer Unterpowerung: Anhaltend geringe Power erhöht nicht nur die Rate falsch-negativer Ergebnisse, sondern reduziert auch die Wahrscheinlichkeit, dass ein statistisch signifikanter Befund einen wahren Effekt widerspiegelt, und übertreibt die Größe der berichteten Effekte, was die Zuverlässigkeit ganzer Literaturen untergräbt.

Key figures

Jacob Cohen
Jerzy Neyman
Egon Pearson
Douglas G. Altman
John P. A. Ioannidis

Seminal works

cohen-1988
button-2013

Frequently asked questions

Was ist statistische Power einfach ausgedrückt?: Es ist die Wahrscheinlichkeit, dass eine Studie einen realen Effekt einer bestimmten Größe entdeckt, wenn dieser Effekt tatsächlich existiert. Eine höhere Power bedeutet eine bessere Chance, einen wahren Effekt nicht zu übersehen; 80 % Power ist ein häufiges Ziel.
Warum ist die Stichprobengröße so wichtig?: Größere Stichproben erhöhen die Power und verringern die Ungenauigkeit von Schätzungen, sodass eine Studie den gesuchten Effekt zuverlässig entdecken kann. Eine zu kleine Stichprobe birgt das Risiko, sowohl reale Effekte zu übersehen als auch übertriebene signifikante Befunde zu produzieren.