Logistische Regression
Die logistische Regression modelliert die Wahrscheinlichkeit eines binären (Ja/Nein) Ergebnisses als Funktion eines oder mehrerer Prädiktoren. Da Wahrscheinlichkeiten zwischen 0 und 1 begrenzt sind, arbeitet das Modell auf der Log-Odds-Skala, sodass jeder Koeffizient einer Änderung der Log-Odds entspricht und zu einem Odds Ratio exponiert wird. Sie ist die Standard-Regressionsmethode für binäre Ergebnisse in den Gesundheitswissenschaften.
Definition
Die logistische Regression modelliert die Log-Odds (Logit) eines binären Ergebnisses als lineare Funktion von Prädiktoren, logit(P) = b0 + b1X1 + ... + bkXk, wobei die Koeffizienten mittels Maximum-Likelihood geschätzt werden, sodass der exponenzierte Koeffizient exp(bj) das adjustierte Odds Ratio für den Prädiktor Xj ist.
Scope
Dieser Eintrag behandelt das binäre logistische Modell: den Logit-Link und warum er verwendet wird, die Interpretation von Koeffizienten als Odds Ratios, die Maximum-Likelihood-Schätzung, die Adjustierung für Störvariablen sowie die praktischen Aspekte der Stichprobengröße (Ereignisse pro Variable), Separation und Güte der Anpassung. Er weist auch auf den Unterschied zwischen Odds Ratios und Risk Ratios hin. Es handelt sich um ein methodisches Thema, nicht um eine klinische Leitlinie.
Core questions
- Warum wird ein binäres Ergebnis auf der Log-Odds-Skala und nicht direkt als Wahrscheinlichkeit modelliert?
- Wie wird ein logistischer Regressionskoeffizient als Odds Ratio interpretiert?
- Wie werden Koeffizienten geschätzt und wie passt das Modell für Störvariablen an?
- Wie viele Ergebnisereignisse werden pro Prädiktor für stabile Schätzungen benötigt?
- Wann unterscheidet sich das Odds Ratio wesentlich vom Risk Ratio?
Key concepts
- Logit (Log-Odds) Link-Funktion
- Odds Ratio als exp(Koeffizient)
- Maximum-Likelihood-Schätzung
- Adjustiertes versus unadjustiertes Odds Ratio
- Ereignisse pro Variable
- Separation und quasi-vollständige Separation
- Güte der Anpassung und Kalibrierung
- Odds Ratio versus Risk Ratio
Mechanisms
Die direkte Modellierung einer Wahrscheinlichkeit mit einem linearen Prädiktor ist problematisch, da Vorhersagen außerhalb des Bereichs von 0 bis 1 liegen könnten; der Logit-Link löst dieses Problem, indem er die Wahrscheinlichkeit in ihre Log-Odds transformiert, die unbegrenzt ist und linear modelliert wird. Die Koeffizienten werden mittels Maximum-Likelihood und nicht mittels der Methode der kleinsten Quadrate geschätzt, und jeder exponenzierte Koeffizient ist das Odds Ratio, das die Odds des Ergebnisses für eine Einheitsdifferenz in diesem Prädiktor vergleicht, während die anderen konstant gehalten werden. Eine stabile Schätzung erfordert ausreichend Ergebnisereignisse im Verhältnis zur Anzahl der Prädiktoren; die traditionelle Empfehlung von etwa zehn Ereignissen pro Variable wurde in späteren Arbeiten untersucht und teilweise gelockert. Wenn ein Prädiktor Ergebnisklassen perfekt trennt, versagt die gewöhnliche Maximum-Likelihood-Schätzung (Separation), und penalisierten Ansätze begegnen diesem Problem. Da das Modell Odds Ratios schätzt, können diese das Risk Ratio überschätzen, wenn das Ergebnis häufig ist, was alternative Ansätze wie die modifizierte Poisson-Regression zur direkten Schätzung von Risk Ratios motiviert hat.
Clinical relevance
Die logistische Regression ist die Grundlage eines Großteils der adjustierten Odds Ratios sowie der diagnostischen und prognostischen Modelle, die in der klinischen und epidemiologischen Forschung berichtet werden. Das Verständnis, dass ihre Koeffizienten Odds Ratios sind und wann diese von Risk Ratios abweichen, ist zentral für die Interpretation solcher Studien. Dieser Eintrag beschreibt die Methode und ist keine Grundlage für individuelle diagnostische oder Behandlungsentscheidungen.
Epidemiology
Die logistische Regression ist die natürliche Analysemethode für Fall-Kontroll-Studien, bei denen das Odds Ratio das schätzbare Assoziationsmaß ist, und wird in Kohorten- und Querschnittsstudien weit verbreitet eingesetzt, um adjustierte Effektschätzungen für binäre Ergebnisse zu erhalten. Wenn das Ergebnis in einer Kohorte häufig ist, weicht das Odds Ratio vom Risk Ratio ab, und Analysten bevorzugen möglicherweise Methoden, die das Risk Ratio direkt schätzen.
Evidence & guidelines
Das Lehrbuch von Hosmer, Lemeshow und Sturdivant ist ein Standardwerk für die Anpassung und Bewertung logistischer Modelle. Die Berichterstattung von Vorhersagemodellen, die mit logistischer Regression erstellt wurden, wird durch die TRIPOD-Erklärung abgedeckt, und methodologische Studien liefern Hinweise zur Stichprobengröße, wie z. B. Ereignisse pro Variable.
History
Die logistische Funktion hat ihre Wurzeln im 19. Jahrhundert in der Populationsdynamik, und ihre Verwendung für die binäre Regression wurde Mitte des 20. Jahrhunderts entwickelt, wobei David Cox' Arbeit die Methode für die Analyse binärer Daten konsolidierte. Sie wurde zu einem wichtigen Werkzeug der Epidemiologie, insbesondere für die Fall-Kontroll-Analyse, bei der das Odds Ratio das natürliche Maß ist. Die nachfolgende methodologische Literatur befasste sich mit praktischen Problemen, einschließlich Stichprobengröße, Separation und der Abweichung von Odds Ratios von Risk Ratios.
Debates
- Wie viele Ergebnisereignisse werden pro Prädiktor benötigt?
- Eine langjährige Regel von etwa zehn Ereignissen pro Variable wurde durch Simulationsarbeiten gestützt, aber spätere Studien argumentierten, dass die Regel konservativ und kontextabhängig ist, sodass manchmal weniger Ereignisse ausreichen können, während in anderen Fällen mehr benötigt werden.
- Sollte das Odds Ratio verwendet werden, wenn das Ergebnis häufig ist?
- Wenn ein Ergebnis häufig ist, überschätzt das Odds Ratio das Risk Ratio und kann als relatives Risiko missinterpretiert werden; Alternativen wie die modifizierte Poisson-Regression schätzen das Risk Ratio direkt und wurden für prospektive Studien mit binären Ergebnissen vorgeschlagen.
Key figures
- David Cox
- David Hosmer
- Stanley Lemeshow
- Peter Peduzzi
- Eric Vittinghoff
Related topics
Seminal works
- hosmer-2013
- peduzzi-1996
Frequently asked questions
- Warum berichtet die logistische Regression Odds Ratios?
- Da das Modell auf der Log-Odds-Skala linear ist, stellt jeder Koeffizient eine Änderung der Log-Odds dar, und dessen Exponentiation ergibt ein Odds Ratio. Das Odds Ratio ist daher das natürliche Effektmaß, das das Modell für ein binäres Ergebnis liefert.
- Wann ist ein Odds Ratio eine schlechte Annäherung an das Risk Ratio?
- Wenn das Ergebnis häufig ist, weicht das Odds Ratio vom Risk Ratio ab und überschätzt es. In dieser Situation kann ein Odds Ratio irreführend sein, wenn es als relatives Risiko gelesen wird, und Methoden, die das Risk Ratio direkt schätzen, können vorzuziehen sein.