Einfache lineare Regression
Die einfache lineare Regression modelliert den Erwartungswert eines kontinuierlichen Ergebnisses als geradlinige Funktion einer einzelnen erklärenden Variablen. Sie schätzt einen Achsenabschnitt und eine Steigung mittels der Methode der kleinsten Quadrate, wobei die Steigung ausdrückt, wie stark sich das Ergebnis im Durchschnitt für jede Erhöhung des Prädiktors um eine Einheit ändert. Es ist das grundlegende Regressionsmodell, auf dem komplexere Modelle aufbauen.
Definition
Die einfache lineare Regression passt das Modell E(Y) = a + bX an, wobei der Achsenabschnitt a und die Steigung b durch Minimierung der Summe der quadrierten Residuen (gewöhnliche kleinste Quadrate) geschätzt werden, sodass die Steigung die durchschnittliche Änderung des kontinuierlichen Ergebnisses Y pro Erhöhung des einzelnen Prädiktors X um eine Einheit quantifiziert.
Scope
Dieser Eintrag behandelt das Geradenmodell mit einem Prädiktor: die Bedeutung von Achsenabschnitt und Steigung, die Schätzung nach der Methode der kleinsten Quadrate, die Annahmen der Linearität, Unabhängigkeit, konstanter Varianz und annähernd normalverteilter Residuen sowie die Interpretation der Anpassung durch Konfidenzintervalle, Vorhersage und den Bestimmtheitskoeffizienten. Es handelt sich um ein methodisches Thema, nicht um eine klinische Leitlinie.
Core questions
- Wie wird eine Gerade an Daten angepasst, und was minimiert die „Methode der kleinsten Quadrate“?
- Was bedeuten Achsenabschnitt und Steigung inhaltlich?
- Welche Annahmen müssen erfüllt sein, damit die Schätzungen und ihre Konfidenzintervalle gültig sind?
- Wie hängt die einfache lineare Regression mit dem Korrelationskoeffizienten zusammen?
- Wie wird die angepasste Linie zur Schätzung im Vergleich zur Vorhersage verwendet?
Key concepts
- Achsenabschnitt und Steigung
- Methode der kleinsten Quadrate
- Residuen
- Annahmen: Linearität, Unabhängigkeit, konstante Varianz, normalverteilte Fehler
- Konfidenzintervall für die Steigung
- Bestimmtheitskoeffizient (R-Quadrat)
- Konfidenz- versus Vorhersageintervalle
- Regression zur Mitte
Mechanisms
Das Modell postuliert, dass der Mittelwert des Ergebnisses auf einer Geraden im Prädiktor liegt, wobei einzelne Beobachtungen um diese Linie streuen. Die Methode der kleinsten Quadrate wählt den Achsenabschnitt und die Steigung, die die Summe der quadrierten vertikalen Abstände (Residuen) zwischen beobachteten und angepassten Werten minimieren. Die Steigungsschätzung hat einen Standardfehler, aus dem ein Konfidenzintervall und ein Hypothesentest folgen, die gültig sind, wenn die Residuen unabhängig sind, eine annähernd konstante Varianz aufweisen und annähernd normalverteilt sind. Der Bestimmtheitskoeffizient, R-Quadrat, gibt den Anteil der Ergebnisvarianz an, der durch den Prädiktor erklärt wird, und entspricht im Fall eines einfachen Prädiktors dem Quadrat der Pearson-Korrelation. Ein Konfidenzintervall beschreibt die Unsicherheit im mittleren Ergebnis bei einem gegebenen Prädiktorwert, während ein Vorhersageintervall, das breiter ist, die Unsicherheit bei einer einzelnen zukünftigen Beobachtung beschreibt.
Clinical relevance
Die einfache lineare Regression findet sich in der gesamten Gesundheitsliteratur, um zu beschreiben, wie eine kontinuierliche Messung mit einer anderen zusammenhängt, und um Referenzbeziehungen und Kalibrierungsgeraden zu konstruieren. Das Erkennen ihrer Annahmen ist Teil der Bewertung solcher Analysen. Dieser Eintrag beschreibt die Methode und ist keine Grundlage für individuelle diagnostische oder therapeutische Entscheidungen.
Evidence & guidelines
Standardtexte der medizinischen Statistik und die BMJ Statistics Notes-Reihe beschreiben, wie Regressionsgeraden, Steigungen und ihre Konfidenzintervalle zu berichten und zu interpretieren sind, und betonen die Überprüfung der Residuen, bevor man sich auf eine angepasste Linie verlässt.
History
Das Geradenmodell geht zurück auf Francis Galtons Beobachtung aus dem 19. Jahrhundert der „Regression zur Mitte“ bei erblichen Merkmalen, das Phänomen, das der Regression ihren Namen gab, und auf die Methode der kleinsten Quadrate, die zuvor in Astronomie und Geodäsie entwickelt wurde. Pearson und Nachfolger formalisierten die Inferenz für die Steigung, und das Modell wurde zum Ausgangspunkt für den breiteren Regressionsapparat der modernen Biostatistik.
Key figures
- Francis Galton
- Karl Pearson
- Douglas Altman
- Martin Bland
Related topics
Seminal works
- altman-1991
- kutner-2005
Frequently asked questions
- Was bedeutet die Steigung in einer einfachen linearen Regression?
- Die Steigung ist die durchschnittliche Änderung des Ergebnisses für jede Erhöhung des Prädiktors um eine Einheit. Ihr Konfidenzintervall und p-Wert geben an, wie präzise sie geschätzt wird und ob der Zusammenhang von keiner Beziehung unterscheidbar ist.
- Was ist der Unterschied zwischen einem Konfidenzintervall und einem Vorhersageintervall für eine Regressionsgerade?
- Ein Konfidenzintervall drückt die Unsicherheit über den mittleren Ergebniswert bei einem gegebenen Prädiktorwert aus, während ein Vorhersageintervall, das breiter ist, die Unsicherheit über eine einzelne neue Beobachtung bei diesem Wert ausdrückt, da es auch die Streuung der Punkte um die Linie berücksichtigt.