Konfidenzintervalle
Ein Konfidenzintervall ist ein Bereich plausibler Werte für eine unbekannte Populationsgröße, der aus Stichprobendaten berechnet wird, sodass das verwendete Verfahren zur dessen Konstruktion den wahren Wert in einem angegebenen Anteil der Fälle – üblicherweise 95 % – bei wiederholten Stichproben erfassen würde. Es drückt sowohl die Größe einer Schätzung als auch die Unsicherheit darum in einer einzigen, weit verbreiteten Zusammenfassung aus und ist zur bevorzugten Methode geworden, Effektschätzungen in den Gesundheitswissenschaften darzustellen.
Definition
Ein Konfidenzintervall ist ein Intervall, das aus Stichprobendaten mittels einer definierten Methode auf einem angegebenen Konfidenzniveau berechnet wird, sodass die Methode den wahren Populationsparameter in diesem angegebenen Anteil hypothetischer wiederholter Stichproben enthalten würde.
Scope
Dieses Thema erklärt, was ein Konfidenzintervall ist, wie sein Konfidenzniveau interpretiert werden sollte, wie die Intervallbreite die Präzision und Stichprobengröße widerspiegelt und welche häufigen Missverständnisse es gibt. Es wird als Referenzmethodik zur Bewertung und Berichterstattung von Forschungsergebnissen präsentiert, nicht als klinische Entscheidungsregel.
Core questions
- Welcher Wertebereich für den Parameter ist plausibel mit den Daten vereinbar?
- Was garantiert das Konfidenzniveau tatsächlich?
- Wie bestimmen Stichprobengröße und Variabilität die Intervallbreite?
- Wie verhält sich ein Konfidenzintervall zu einem Hypothesentest oder p-Wert?
Key concepts
- Konfidenzniveau
- Überdeckungswahrscheinlichkeit
- Intervallbreite und Präzision
- Untere und obere Konfidenzgrenzen
- Frequentistische Interpretation
- Beziehung zum Nullwert
- Exakte versus approximative Intervalle
Mechanisms
Ein Konfidenzintervall wird typischerweise gebildet, indem man eine Punktschätzung nimmt und diese um ein Vielfaches ihres Standardfehlers erweitert, wobei das Vielfache durch das gewünschte Konfidenzniveau und die relevante Stichprobenverteilung festgelegt wird. Die definierende frequentistische Eigenschaft ist die Überdeckung (coverage): Würde die Studie viele Male wiederholt, würden so konstruierte Intervalle den wahren Parameter im angegebenen Anteil der Wiederholungen enthalten. Das Intervall wird schmaler, wenn die Stichprobe wächst oder die Variabilität abnimmt, sodass die Breite ein direktes Maß für die Präzision ist. Eine gängige Verknüpfung verbindet Intervalle mit Tests – wenn ein 95%-Intervall für eine Differenz den Nullwert ausschließt, ist der entsprechende zweiseitige Test auf dem 5%-Niveau signifikant – aber das Intervall vermittelt mehr, indem es den gesamten Bereich kompatibler Werte zeigt. Ein häufiger Fehler ist es, das Niveau als die Wahrscheinlichkeit zu lesen, dass der wahre Wert innerhalb eines bestimmten Intervalls liegt, was die frequentistische Definition nicht unterstützt.
Clinical relevance
Konfidenzintervalle begleiten die meisten Effektschätzungen in klinischen und epidemiologischen Berichten und ermöglichen es den Lesern zu beurteilen, ob ein Effekt vorhanden ist, wie groß er ist und wie präzise er geschätzt wurde. Ein breites Intervall signalisiert eine nicht schlüssige Studie, selbst wenn eine Punktschätzung auffällig erscheint. Dieser Eintrag beschreibt, wie Intervalle konstruiert und interpretiert werden, und ist keine Grundlage für individuelle diagnostische oder Behandlungsentscheidungen.
Evidence & guidelines
Berichtsrichtlinien und redaktionelle Konventionen in der Medizin erwarten heute routinemäßig, dass Effektschätzungen mit Konfidenzintervallen präsentiert werden. Die Stellungnahme der American Statistical Association zu p-Werten und der Leitfaden zur Fehlinterpretation von Greenland und Kollegen betonen beide die korrekte Interpretation von Intervallen neben p-Werten, aufbauend auf der früheren Befürwortung der intervallbasierten Berichterstattung durch Gardner und Altman.
History
Das Konfidenzintervall wurde in den 1930er Jahren von Jerzy Neyman als frequentistischer Ansatz zur Intervallschätzung eingeführt, wobei frühe exakte Konstruktionen wie die Clopper-Pearson-Grenzen für einen Binomialanteil 1934 erschienen. Seine routinemäßige Anwendung in der Medizin wurde später im zwanzigsten Jahrhundert vorangetrieben, insbesondere durch Gardners und Altmans Plädoyer von 1986 für die Berichterstattung von Intervallen anstelle bloßer p-Werte, was die Journal-Konventionen neu gestaltete.
Debates
- Fehlinterpretation des Konfidenzniveaus
- Das Konfidenzniveau beschreibt die langfristige Leistung des Intervallkonstruktionsverfahrens, nicht die Wahrscheinlichkeit, dass ein bestimmtes berechnetes Intervall den wahren Wert enthält; diese Unterscheidung wird weithin missverstanden und ist eine wiederkehrende Fehlerquelle.
Key figures
- Jerzy Neyman
- Egon Pearson
- Martin J. Gardner
- Douglas G. Altman
- Sander Greenland
Related topics
Seminal works
- clopper-pearson-1934
- gardner-altman-1986
Frequently asked questions
- Bedeutet ein 95%-Konfidenzintervall, dass eine 95%-Chance besteht, dass der wahre Wert darin liegt?
- Nein. Gemäß der frequentistischen Definition ist der wahre Wert fest, und die 95% beziehen sich auf den langfristigen Anteil solcher Intervalle, die auf die gleiche Weise über wiederholte Stichproben hinweg konstruiert wurden und diesen Wert enthalten würden – nicht auf die Wahrscheinlichkeit für ein spezifisches Intervall.
- Was macht ein Konfidenzintervall schmal oder breit?
- Hauptsächlich Stichprobengröße und Variabilität: größere Stichproben und weniger variable Daten ergeben schmalere, präzisere Intervalle, während kleine oder verrauschte Studien breite Intervalle produzieren, die Unsicherheit signalisieren.