Regression und Korrelation
Regression und Korrelation sind die zentralen biostatistischen Werkzeuge zur Quantifizierung der Beziehungen zwischen Variablen. Die Korrelation misst die Stärke und Richtung des Zusammenhangs zwischen zwei Größen, während die Regression modelliert, wie sich ein Ergebnis ändert, wenn sich eine oder mehrere erklärende Variablen ändern, und unterstützt sowohl die Erklärung als auch die Vorhersage. Zusammen bilden sie die Grundlage der meisten multivariaten Analysen, die in den Gesundheitswissenschaften berichtet werden.
Definition
Regression und Korrelation umfassen die statistischen Methoden, die den Zusammenhang zwischen Variablen zusammenfassen (Korrelation und Kovarianz) und eine Funktion schätzen, die ein Ergebnis mit einer oder mehreren erklärenden Variablen in Beziehung setzt (Regression), sodass das Ergebnis erklärt, um Störfaktoren bereinigt oder vorhergesagt werden kann.
Scope
Dieser Bereich führt den Leser durch die Methoden, die zur Beschreibung von Assoziationen und zur Modellierung von Ergebnissen aus Prädiktoren verwendet werden: Korrelation und Kovarianz, einfache und multiple lineare Regression für kontinuierliche Ergebnisse, logistische Regression für binäre Ergebnisse sowie die übergreifenden Aspekte der Modellauswahl und Diagnostik. Es handelt sich um eine methodische Übersicht und nicht um eine klinische Anleitung, und es verweist auf die einzelnen Themeneinträge, in denen jede Methode detailliert entwickelt wird.
Sub-topics
Core questions
- Wie stark und in welche Richtung sind zwei Variablen assoziiert?
- Wie ändert sich ein Ergebnis, wenn sich eine erklärende Variable ändert, während andere Variablen konstant gehalten werden?
- Welche Modellform (linear, logistisch oder andere) passt zum Typ des analysierten Ergebnisses?
- Wie werden Regressionskoeffizienten als Effekte oder als Vorhersagen interpretiert?
- Wie wird ein angepasstes Modell überprüft, ausgewählt und vor Überanpassung geschützt?
Key concepts
- Kovarianz und der Korrelationskoeffizient
- Kleinste-Quadrate-Schätzung
- Regressionskoeffizient (Steigung) und Achsenabschnitt
- Anpassung und Kontrolle von Störfaktoren durch multiple Regression
- Linkfunktion und der Rahmen des verallgemeinerten linearen Modells
- Vorhersage versus Erklärung
- Überanpassung und Modellvalidierung
- Residuen und Modelldiagnostik
Mechanisms
Die Korrelation reduziert die gemeinsame Variation zweier Variablen (ihre Kovarianz) auf einen skalenfreien Koeffizienten zwischen -1 und +1. Die Regression geht weiter, indem sie eine Funktion anpasst – meist eine Linie oder eine Summe gewichteter Prädiktoren –, die den erwarteten Wert eines Ergebnisses unter Berücksichtigung der Prädiktoren beschreibt. Die lineare Regression schätzt diese Funktion für kontinuierliche Ergebnisse mittels der Methode der kleinsten Quadrate; logistische und andere verallgemeinerte lineare Modelle erweitern dieselbe Idee auf binäre, Zähl- und andere Ergebnistypen durch eine Linkfunktion, die den linearen Prädiktor mit der Ergebnisskala verbindet. Bei all diesen tragen die Koeffizienten die inhaltliche Interpretation, und Diagnostika prüfen, ob die Annahmen, die diese Interpretation rechtfertigen, zutreffen.
Clinical relevance
Die meisten quantitativen Ergebnisse in der klinischen und öffentlichen Gesundheitsforschung – angepasste Assoziationen, Risikofaktoren, Dosis-Wirkungs-Beziehungen und Vorhersagemodelle – werden durch Regression erzeugt. Das Verständnis, wie diese Modelle aufgebaut und interpretiert werden, ist Teil der kritischen Bewertung der Literatur. Dieser Bereich beschreibt, wie solche Evidenz generiert wird, und ist keine Grundlage für individuelle Diagnose- oder Behandlungsentscheidungen.
Evidence & guidelines
Berichtsrichtlinien für regressionsbasierte Studien umfassen die STROBE-Erklärung für Beobachtungsstudien und die TRIPOD-Erklärung für Vorhersagemodellstudien; Standardlehrbücher wie Harrell und Vittinghoff und Kollegen legen empfohlene Modellierungsstrategien dar. Methodische Kommentare warnen vor vermeidbaren Praktiken wie der Dichotomisierung kontinuierlicher Prädiktoren, die Informationen verwirft und geschätzte Effekte verzerren kann.
History
Korrelation und Regression haben ihren Ursprung in Francis Galtons Studien zur Vererbung im späten 19. Jahrhundert, wo er die „Regression zur Mitte“ beschrieb, und wurden von Karl Pearson formalisiert. Das 20. Jahrhundert erweiterte das lineare Modell auf multiple Prädiktoren, und der Rahmen der verallgemeinerten linearen Modelle vereinte später lineare, logistische und verwandte Modelle. In der Biostatistik wurden diese Methoden zum Standardinstrumentarium für angepasste Analysen und Risikovorhersagen.
Key figures
- Francis Galton
- Karl Pearson
- David Cox
- Frank Harrell
- Douglas Altman
Related topics
Seminal works
- altman-bland-2005
- harrell-2015
Frequently asked questions
- Was ist der Unterschied zwischen Korrelation und Regression?
- Die Korrelation fasst die Stärke und Richtung des Zusammenhangs zwischen zwei Variablen in einem einzigen symmetrischen Koeffizienten zusammen, während die Regression modelliert, wie ein Ergebnis von einem oder mehreren Prädiktoren abhängt, und Koeffizienten liefert, die zur Anpassung oder Vorhersage verwendet werden können. Die Korrelation unterscheidet nicht zwischen Ergebnis und Prädiktor; die Regression tut dies.
- Welches Regressionsmodell sollte verwendet werden?
- Die Wahl richtet sich nach dem Ergebnistyp: lineare Regression für ein kontinuierliches Ergebnis, logistische Regression für ein binäres Ergebnis und andere verallgemeinerte lineare oder Überlebensmodelle für Zähl- oder Zeit-bis-Ereignis-Daten. Die einzelnen Themeneinträge beschreiben jedes davon detailliert.