Was ist der Unterschied zwischen Korrelation und Regression?

Die Korrelation fasst die Stärke und Richtung des Zusammenhangs zwischen zwei Variablen in einem einzigen symmetrischen Koeffizienten zusammen, während die Regression modelliert, wie ein Ergebnis von einem oder mehreren Prädiktoren abhängt, und Koeffizienten liefert, die zur Anpassung oder Vorhersage verwendet werden können. Die Korrelation unterscheidet nicht zwischen Ergebnis und Prädiktor; die Regression tut dies.

Welches Regressionsmodell sollte verwendet werden?

Die Wahl richtet sich nach dem Ergebnistyp: lineare Regression für ein kontinuierliches Ergebnis, logistische Regression für ein binäres Ergebnis und andere verallgemeinerte lineare oder Überlebensmodelle für Zähl- oder Zeit-bis-Ereignis-Daten. Die einzelnen Themeneinträge beschreiben jedes davon detailliert.

Regression und Korrelation

Regression und Korrelation sind die zentralen biostatistischen Werkzeuge zur Quantifizierung der Beziehungen zwischen Variablen. Die Korrelation misst die Stärke und Richtung des Zusammenhangs zwischen zwei Größen, während die Regression modelliert, wie sich ein Ergebnis ändert, wenn sich eine oder mehrere erklärende Variablen ändern, und unterstützt sowohl die Erklärung als auch die Vorhersage. Zusammen bilden sie die Grundlage der meisten multivariaten Analysen, die in den Gesundheitswissenschaften berichtet werden.

Thema finden mit PaperMindDemnächstFind papers & topics

Tools & resources

Folien herunterladen

Learn & explore

VideoDemnächst

Definition

Regression und Korrelation umfassen die statistischen Methoden, die den Zusammenhang zwischen Variablen zusammenfassen (Korrelation und Kovarianz) und eine Funktion schätzen, die ein Ergebnis mit einer oder mehreren erklärenden Variablen in Beziehung setzt (Regression), sodass das Ergebnis erklärt, um Störfaktoren bereinigt oder vorhergesagt werden kann.

Scope

Dieser Bereich führt den Leser durch die Methoden, die zur Beschreibung von Assoziationen und zur Modellierung von Ergebnissen aus Prädiktoren verwendet werden: Korrelation und Kovarianz, einfache und multiple lineare Regression für kontinuierliche Ergebnisse, logistische Regression für binäre Ergebnisse sowie die übergreifenden Aspekte der Modellauswahl und Diagnostik. Es handelt sich um eine methodische Übersicht und nicht um eine klinische Anleitung, und es verweist auf die einzelnen Themeneinträge, in denen jede Methode detailliert entwickelt wird.

Sub-topics

Core questions

Wie stark und in welche Richtung sind zwei Variablen assoziiert?
Wie ändert sich ein Ergebnis, wenn sich eine erklärende Variable ändert, während andere Variablen konstant gehalten werden?
Welche Modellform (linear, logistisch oder andere) passt zum Typ des analysierten Ergebnisses?
Wie werden Regressionskoeffizienten als Effekte oder als Vorhersagen interpretiert?
Wie wird ein angepasstes Modell überprüft, ausgewählt und vor Überanpassung geschützt?

Key concepts

Kovarianz und der Korrelationskoeffizient
Kleinste-Quadrate-Schätzung
Regressionskoeffizient (Steigung) und Achsenabschnitt
Anpassung und Kontrolle von Störfaktoren durch multiple Regression
Linkfunktion und der Rahmen des verallgemeinerten linearen Modells
Vorhersage versus Erklärung
Überanpassung und Modellvalidierung
Residuen und Modelldiagnostik

Mechanisms

Die Korrelation reduziert die gemeinsame Variation zweier Variablen (ihre Kovarianz) auf einen skalenfreien Koeffizienten zwischen -1 und +1. Die Regression geht weiter, indem sie eine Funktion anpasst – meist eine Linie oder eine Summe gewichteter Prädiktoren –, die den erwarteten Wert eines Ergebnisses unter Berücksichtigung der Prädiktoren beschreibt. Die lineare Regression schätzt diese Funktion für kontinuierliche Ergebnisse mittels der Methode der kleinsten Quadrate; logistische und andere verallgemeinerte lineare Modelle erweitern dieselbe Idee auf binäre, Zähl- und andere Ergebnistypen durch eine Linkfunktion, die den linearen Prädiktor mit der Ergebnisskala verbindet. Bei all diesen tragen die Koeffizienten die inhaltliche Interpretation, und Diagnostika prüfen, ob die Annahmen, die diese Interpretation rechtfertigen, zutreffen.

Clinical relevance

Die meisten quantitativen Ergebnisse in der klinischen und öffentlichen Gesundheitsforschung – angepasste Assoziationen, Risikofaktoren, Dosis-Wirkungs-Beziehungen und Vorhersagemodelle – werden durch Regression erzeugt. Das Verständnis, wie diese Modelle aufgebaut und interpretiert werden, ist Teil der kritischen Bewertung der Literatur. Dieser Bereich beschreibt, wie solche Evidenz generiert wird, und ist keine Grundlage für individuelle Diagnose- oder Behandlungsentscheidungen.

Evidence & guidelines

Berichtsrichtlinien für regressionsbasierte Studien umfassen die STROBE-Erklärung für Beobachtungsstudien und die TRIPOD-Erklärung für Vorhersagemodellstudien; Standardlehrbücher wie Harrell und Vittinghoff und Kollegen legen empfohlene Modellierungsstrategien dar. Methodische Kommentare warnen vor vermeidbaren Praktiken wie der Dichotomisierung kontinuierlicher Prädiktoren, die Informationen verwirft und geschätzte Effekte verzerren kann.

History

Korrelation und Regression haben ihren Ursprung in Francis Galtons Studien zur Vererbung im späten 19. Jahrhundert, wo er die „Regression zur Mitte“ beschrieb, und wurden von Karl Pearson formalisiert. Das 20. Jahrhundert erweiterte das lineare Modell auf multiple Prädiktoren, und der Rahmen der verallgemeinerten linearen Modelle vereinte später lineare, logistische und verwandte Modelle. In der Biostatistik wurden diese Methoden zum Standardinstrumentarium für angepasste Analysen und Risikovorhersagen.

Key figures

Francis Galton
Karl Pearson
David Cox
Frank Harrell
Douglas Altman

Seminal works

altman-bland-2005
harrell-2015

Frequently asked questions

Was ist der Unterschied zwischen Korrelation und Regression?: Die Korrelation fasst die Stärke und Richtung des Zusammenhangs zwischen zwei Variablen in einem einzigen symmetrischen Koeffizienten zusammen, während die Regression modelliert, wie ein Ergebnis von einem oder mehreren Prädiktoren abhängt, und Koeffizienten liefert, die zur Anpassung oder Vorhersage verwendet werden können. Die Korrelation unterscheidet nicht zwischen Ergebnis und Prädiktor; die Regression tut dies.
Welches Regressionsmodell sollte verwendet werden?: Die Wahl richtet sich nach dem Ergebnistyp: lineare Regression für ein kontinuierliches Ergebnis, logistische Regression für ein binäres Ergebnis und andere verallgemeinerte lineare oder Überlebensmodelle für Zähl- oder Zeit-bis-Ereignis-Daten. Die einzelnen Themeneinträge beschreiben jedes davon detailliert.