Multiple lineare Regression
Die multiple lineare Regression erweitert das einfache lineare Modell auf mehrere erklärende Variablen gleichzeitig und modelliert ein kontinuierliches Ergebnis als gewichtete Summe von Prädiktoren plus einem Achsenabschnitt. Jeder Koeffizient schätzt den Effekt seines Prädiktors, während die anderen konstant gehalten werden, was das Modell zum Standardwerkzeug für die Adjustierung einer Assoziation für Störgrößen und für die Erstellung multivariabler Vorhersagen macht.
Definition
Die multiple lineare Regression passt E(Y) = b0 + b1X1 + b2X2 + ... + bkXk für ein kontinuierliches Ergebnis Y an, wobei die Koeffizienten mittels der Methode der kleinsten Quadrate geschätzt werden, sodass jeder bj die durchschnittliche Änderung in Y pro Erhöhung von Xj um eine Einheit quantifiziert, während die anderen Prädiktoren konstant gehalten werden.
Scope
Dieser Eintrag behandelt das multivariate lineare Modell: die Interpretation jedes Koeffizienten als adjustierten Effekt, den Umgang mit kategorialen Prädiktoren und Interaktionen, die zusätzlichen Bedenken, die durch mehrere Prädiktoren entstehen (Kollinearität, Überanpassung und wie Prädiktoren ausgewählt werden), und dieselben residualbasierten Annahmen wie beim einfachen Modell. Es handelt sich um ein methodisches Thema, nicht um eine klinische Leitlinie.
Core questions
- Was bedeutet es, einen Koeffizienten zu interpretieren, 'während die anderen Variablen konstant gehalten werden'?
- Wie adjustiert die multiple Regression eine Assoziation für Störgrößen?
- Wie werden kategoriale Prädiktoren und Interaktionen im Modell dargestellt?
- Welche Probleme verursachen Kollinearität und zu viele Prädiktoren?
- Wie wird die Anzahl der Prädiktoren gegen die Stichprobengröße abgewogen, um Überanpassung zu vermeiden?
Key concepts
- Adjustierter (partieller) Regressionskoeffizient
- Kontrolle von Störgrößen durch Adjustierung
- Dummy-Kodierung kategorialer Prädiktoren
- Interaktionsterme (Effektmodifikation)
- Multikollinearität
- Überanpassung und Ereignisse/Beobachtungen pro Prädiktor
- Modell-R-Quadrat und adjustiertes R-Quadrat
- Linearität, Unabhängigkeit, konstante Varianz, normale Fehler
Mechanisms
Das Modell drückt den mittleren Outcome als Achsenabschnitt plus eine gewichtete Summe von Prädiktoren aus, wobei die Gewichte (Koeffizienten) mittels der Methode der kleinsten Quadrate geschätzt werden. Jeder Koeffizient ist ein partieller Effekt: die erwartete Änderung im Outcome pro Einheit Änderung in diesem Prädiktor, wobei die anderen fixiert sind, was der Mechanismus ist, durch den die Regression für Störgrößen adjustiert. Kategoriale Prädiktoren werden als Indikator- (Dummy-) Variablen eingegeben, und Interaktionsterme ermöglichen es, dass der Effekt eines Prädiktors von einem anderen abhängt. Wenn Prädiktoren stark korreliert sind (Multikollinearität), werden einzelne Koeffizienten instabil und schwer zu interpretieren, auch wenn die Gesamtvorhersage unbeeinflusst bleiben kann. Das Einschließen zu vieler Prädiktoren im Verhältnis zur Stichprobengröße führt zu Überanpassung, bei der das Modell Rauschen erfasst und bei neuen Daten schlecht abschneidet; dies motiviert die Begrenzung der Prädiktoren im Verhältnis zur Stichprobengröße und die Validierung des Modells.
Clinical relevance
Die multiple lineare Regression liefert die meisten der adjustierten Assoziationen, die für kontinuierliche Outcomes in der klinischen und öffentlichen Gesundheitsforschung berichtet werden, und ist ein Baustein der Risikovorhersage. Das Verständnis, wie ihre Koeffizienten interpretiert werden und wie Störgrößen kontrolliert werden, ist zentral für die Bewertung solcher Studien. Dieser Eintrag beschreibt die Methode und ist keine Grundlage für individuelle diagnostische oder therapeutische Entscheidungen.
Evidence & guidelines
Standardwerke wie Kutner und Kollegen sowie Harrell legen die empfohlene Modellierungsstrategie dar, und methodische Arbeiten warnen vor vermeidbaren Praktiken – insbesondere der Dichotomisierung kontinuierlicher Prädiktoren, die Informationen verwirft und Schätzungen verzerren kann. Die Berichterstattung über Vorhersagemodelle wird durch die TRIPOD-Erklärung abgedeckt.
History
Die multivariate Erweiterung des linearen Modells entwickelte sich durch die Arbeiten von Pearson, Fisher und anderen im frühen 20. Jahrhundert, die die Schätzung der kleinsten Quadrate und die Inferenz für mehrere Prädiktoren etablierten. In der Biostatistik wurde das Modell zur Standardmethode zur Adjustierung von Assoziationen für Störgrößen, und die spätere methodische Literatur konzentrierte sich darauf, wie Prädiktoren ausgewählt werden sollten und wie Überanpassung und Dichotomisierung die Ergebnisse verzerren.
Debates
- Sollten kontinuierliche Prädiktoren in einem Regressionsmodell dichotomisiert werden?
- Das Aufteilen eines kontinuierlichen Prädiktors an einem Cut-off-Punkt verwirft Informationen, reduziert die Power und kann die geschätzte Beziehung verzerren; Methodologen argumentieren, dass kontinuierliche Prädiktoren in der Regel kontinuierlich bleiben sollten, wobei Nichtlinearität flexibel modelliert werden sollte, anstatt sie durch Kategorisierung zu entfernen.
Key figures
- Karl Pearson
- Ronald A. Fisher
- Frank Harrell
- Douglas Altman
- Patrick Royston
Related topics
Seminal works
- altman-royston-2006-cost
- harrell-2015
Frequently asked questions
- Warum wird multiple Regression zur Kontrolle von Störgrößen verwendet?
- Da jeder Koeffizient den Effekt seines Prädiktors schätzt, während die anderen Prädiktoren im Modell konstant gehalten werden, adjustiert das Einschließen einer Störgröße als Prädiktor den geschätzten Effekt der interessierenden Exposition für diese Störgröße.
- Was ist Multikollinearität und warum ist sie wichtig?
- Multikollinearität ist eine starke Korrelation zwischen Prädiktoren. Sie macht einzelne Koeffizientenschätzungen instabil und schwer interpretierbar, mit erhöhten Standardfehlern, auch wenn die Gesamtvorhersagegenauigkeit des Modells unbeeinflusst bleiben kann.