Sagt mir ein p-Wert die Wahrscheinlichkeit, dass die Nullhypothese wahr ist?

Nein. Der p-Wert ist die Wahrscheinlichkeit von Daten, die mindestens so extrem sind wie die beobachteten, unter der Annahme, dass die Nullhypothese wahr ist; er gibt nicht die Wahrscheinlichkeit an, dass die Nullhypothese selbst wahr oder falsch ist.

Beweist das Nicht-Ablehnen der Nullhypothese, dass es keinen Effekt gibt?

Nein. Ein nicht-signifikantes Ergebnis bedeutet, dass die Daten nicht genügend Evidenz gegen die Nullhypothese lieferten, was einfach daran liegen kann, dass die Studie zu klein war; das Fehlen von Evidenz ist kein Beweis für das Fehlen.

Rahmenwerk für Hypothesentests

Das Rahmenwerk für Hypothesentests ist ein strukturiertes Verfahren zur Entscheidung, ob Stichprobendaten mit einer bestimmten Behauptung über eine Population vereinbar sind. Es stellt eine Nullhypothese – in der Regel eine Aussage über keinen Effekt oder keinen Unterschied – einer Alternative gegenüber, berechnet eine Teststatistik und einen zugehörigen p-Wert und verwendet ein vordefiniertes Signifikanzniveau, um zu beurteilen, ob die Evidenz gegen die Nullhypothese stark genug ist, um darauf zu reagieren. Es ist das am weitesten verbreitete und am meisten diskutierte Entscheidungsverfahren in der quantitativen Gesundheitsforschung.

Thema finden mit PaperMindDemnächstFind papers & topics

Tools & resources

Folien herunterladen

Learn & explore

VideoDemnächst

Definition

Statistische Hypothesentests sind ein Verfahren, das eine aus Stichprobendaten berechnete Teststatistik verwendet, um die Kompatibilität der Daten mit einer aufgestellten Nullhypothese zu bewerten, wobei die Nullhypothese zugunsten einer Alternative verworfen wird, wenn das Ergebnis unter der Nullhypothese bei einem vorab festgelegten Signifikanzniveau ausreichend unwahrscheinlich ist.

Scope

Dieses Thema behandelt die Logik der Null- und Alternativhypothesen, die Rolle der Teststatistik und des p-Wertes, die Bedeutung des Signifikanzniveaus und die Hauptkritikpunkte an der mechanischen Signifikanzprüfung. Es handelt sich um eine Referenzmethodik für die Gestaltung und Bewertung von Studien, nicht um eine klinische Entscheidungsregel.

Core questions

Welche Nullhypothese wird getestet und gegen welche Alternative?
Wie überraschend sind die beobachteten Daten, wenn die Nullhypothese wahr wäre?
Welches Signifikanzniveau steuert die Entscheidung und warum?
Was erlaubt uns die Ablehnung – oder das Nicht-Ablehnen – der Nullhypothese tatsächlich zu schlussfolgern?

Key concepts

Nullhypothese
Alternativhypothese
Teststatistik
P-Wert
Signifikanzniveau (Alpha)
Ablehnungsbereich
Ein- und zweiseitige Tests
Statistische versus praktische Signifikanz

Key theories

Neyman-Pearson-Tests: Stellt das Testen als eine Wahl zwischen zwei Hypothesen mit kontrollierten langfristigen Fehlerraten dar, definiert das Signifikanzniveau (Fehlerrate Typ I) im Voraus und sucht den Test, der die Power gegenüber der Alternative maximiert.

Mechanisms

Ein Test beginnt mit der Formulierung einer Nullhypothese und einer Alternative, fasst dann die Daten in einer Teststatistik zusammen, deren Verteilung unter der Nullhypothese bekannt ist. Der p-Wert ist die Wahrscheinlichkeit, berechnet unter der Nullhypothese, eines mindestens so extremen Ergebnisses wie des beobachteten; ein kleiner p-Wert deutet darauf hin, dass die Daten ungewöhnlich wären, wenn die Nullhypothese wahr wäre. Fällt der p-Wert unter das vorab festgelegte Signifikanzniveau, wird die Nullhypothese verworfen. Entscheidend ist, dass der p-Wert nicht die Wahrscheinlichkeit ist, dass die Nullhypothese wahr ist, und ein Nicht-Verwerfen ist kein Beweis dafür, dass die Nullhypothese korrekt ist. Statistische Signifikanz muss auch keinen bedeutsamen Effekt implizieren, weshalb das Rahmenwerk zusammen mit Effektschätzungen und Konfidenzintervallen gelesen wird.

Clinical relevance

Hypothesentests liegen den Hauptergebnissen der meisten Studien und Beobachtungsstudien zugrunde, daher ist das Verständnis dessen, was ein signifikantes oder nicht-signifikantes Ergebnis bedeutet und was nicht, zentral für die Evidenzbewertung. Eine Fehlinterpretation eines p-Wertes kann zu einer Über- oder Unterbewertung von Befunden führen. Dieser Eintrag beschreibt das inferenzielle Verfahren und ist keine Grundlage für individuelle diagnostische oder Behandlungsentscheidungen.

Evidence & guidelines

Die Besorgnis über den mechanischen Einsatz von Signifikanzschwellen veranlasste die American Statistical Association zu ihrer Erklärung von 2016, die die korrekte Interpretation von p-Werten klarstellte, sowie zu Greenlands und Kollegen' Leitfaden zu häufigen Fehlinterpretationen. Einige Methodologen haben vorgeschlagen, die konventionelle Schwelle für Behauptungen über neue Entdeckungen zu senken, während andere gegen jegliche feste Schwelle argumentieren – Debatten, die ungelöst bleiben.

History

Das Rahmenwerk verschmilzt Fishers Signifikanztests und p-Werte mit den entscheidungstheoretischen Tests von Neyman und Pearson, die 1933 formalisiert wurden und feste Fehlerraten sowie den mächtigsten Test einführten. Der Hybrid, der zur Standardpraxis in Lehrbüchern wurde, zog während des gesamten zwanzigsten Jahrhunderts Kritik auf sich, die sich in den 2010er Jahren angesichts von Bedenken hinsichtlich der Reproduzierbarkeit verstärkte und zu formellen Warnhinweisen und Vorschlägen zur Neudefinition oder Abschaffung fester Signifikanzschwellen führte.

Debates

Der Status der 0,05-Signifikanzschwelle: Kritiker argumentieren, dass eine feste konventionelle Schwelle dichotome, manchmal irreführende Schlussfolgerungen fördert; Vorschläge reichen von der Senkung der Schwelle für neue Behauptungen bis zur Abschaffung klarer Schwellenwerte zugunsten einer kontinuierlichen Interpretation der Evidenz.

Key figures

Ronald A. Fisher
Jerzy Neyman
Egon Pearson
Sander Greenland
Ronald L. Wasserstein

Seminal works

neyman-pearson-1933
wasserstein-lazar-2016

Frequently asked questions

Sagt mir ein p-Wert die Wahrscheinlichkeit, dass die Nullhypothese wahr ist?: Nein. Der p-Wert ist die Wahrscheinlichkeit von Daten, die mindestens so extrem sind wie die beobachteten, unter der Annahme, dass die Nullhypothese wahr ist; er gibt nicht die Wahrscheinlichkeit an, dass die Nullhypothese selbst wahr oder falsch ist.
Beweist das Nicht-Ablehnen der Nullhypothese, dass es keinen Effekt gibt?: Nein. Ein nicht-signifikantes Ergebnis bedeutet, dass die Daten nicht genügend Evidenz gegen die Nullhypothese lieferten, was einfach daran liegen kann, dass die Studie zu klein war; das Fehlen von Evidenz ist kein Beweis für das Fehlen.