Quelle est la différence entre la corrélation et la régression ?

La corrélation résume la force et la direction de l'association entre deux variables en un seul coefficient symétrique, tandis que la régression modélise la dépendance d'un résultat (outcome) vis-à-vis d'un ou plusieurs prédicteurs et produit des coefficients qui peuvent être utilisés pour l'ajustement ou la prédiction. La corrélation ne distingue pas le résultat du prédicteur ; la régression le fait.

Quel modèle de régression devrait être utilisé ?

Le choix dépend du type de résultat : régression linéaire pour un résultat continu, régression logistique pour un résultat binaire, et d'autres modèles linéaires généralisés ou de survie pour les données de comptage ou de temps-à-événement. Les entrées thématiques individuelles décrivent chacune en détail.

Régression et corrélation

La régression et la corrélation sont les outils biostatistiques fondamentaux pour quantifier la relation entre les variables. La corrélation mesure la force et la direction de l'association entre deux quantités, tandis que la régression modélise la manière dont un résultat (outcome) évolue en fonction d'une ou plusieurs variables explicatives, soutenant à la fois l'explication et la prédiction. Ensemble, elles sous-tendent la majeure partie de l'analyse multivariable rapportée dans les sciences de la santé.

Trouver un sujet avec PaperMindBientôtFind papers & topics

Tools & resources

Télécharger les diapositives

Learn & explore

VidéoBientôt

Definition

La régression et la corrélation regroupent les méthodes statistiques qui résument l'association entre les variables (corrélation et covariance) et qui estiment une fonction reliant un résultat (outcome) à une ou plusieurs variables explicatives (régression), afin que le résultat puisse être expliqué, ajusté pour les facteurs de confusion, ou prédit.

Scope

Ce domaine oriente le lecteur à travers la famille de méthodes utilisées pour décrire l'association et pour modéliser les résultats à partir de prédicteurs : la corrélation et la covariance, la régression linéaire simple et multiple pour les résultats continus, la régression logistique pour les résultats binaires, ainsi que les préoccupations transversales de sélection et de diagnostic des modèles. Il s'agit d'une carte méthodologique plutôt que d'une orientation clinique, et il renvoie aux entrées thématiques individuelles où chaque méthode est développée en détail.

Sub-topics

Core questions

Quelle est la force et la direction de l'association entre deux variables ?
Comment un résultat (outcome) évolue-t-il lorsqu'une variable explicative change, en maintenant les autres variables constantes ?
Quelle forme de modèle (linéaire, logistique ou autre) correspond au type de résultat analysé ?
Comment les coefficients de régression sont-ils interprétés comme des effets ou des prédictions ?
Comment un modèle ajusté est-il vérifié, sélectionné et protégé du surajustement ?

Key concepts

Covariance et coefficient de corrélation
Estimation par les moindres carrés
Coefficient de régression (pente) et ordonnée à l'origine
Ajustement et contrôle des facteurs de confusion par la régression multiple
Fonction de lien et cadre des modèles linéaires généralisés
Prédiction versus explication
Surajustement et validation de modèle
Résidus et diagnostics de modèle

Mechanisms

La corrélation réduit la variation conjointe de deux variables (leur covariance) à un coefficient sans échelle compris entre -1 et +1. La régression va plus loin en ajustant une fonction — le plus souvent une droite ou une somme de prédicteurs pondérés — qui décrit la valeur attendue d'un résultat (outcome) étant donné les prédicteurs. La régression linéaire estime cette fonction pour les résultats continus par les moindres carrés ; les modèles logistiques et autres modèles linéaires généralisés étendent la même idée aux types de résultats binaires, de comptage et autres, via une fonction de lien qui connecte le prédicteur linéaire à l'échelle du résultat. Dans tous ces cas, les coefficients portent l'interprétation substantielle, et les diagnostics vérifient si les hypothèses qui justifient cette interprétation sont valides.

Clinical relevance

La plupart des résultats quantitatifs en recherche clinique et en santé publique — associations ajustées, facteurs de risque, relations dose-réponse et modèles de prédiction — sont produits par la régression. Comprendre comment ces modèles sont construits et interprétés fait partie de l'évaluation critique de la littérature. Ce domaine décrit comment de telles preuves sont générées et ne constitue pas une base pour des décisions diagnostiques ou thérapeutiques individuelles.

Evidence & guidelines

Les lignes directrices de rapport pour les études basées sur la régression incluent la déclaration STROBE pour les études observationnelles et la déclaration TRIPOD pour les études de modèles de prédiction ; les traitements de manuels standard tels que Harrell et Vittinghoff et ses collègues exposent la stratégie de modélisation recommandée. Les commentaires méthodologiques mettent en garde contre les pratiques évitables telles que la dichotomisation des prédicteurs continus, qui entraîne une perte d'information et peut fausser les effets estimés.

History

La corrélation et la régression trouvent leur origine dans les études sur l'hérédité de Francis Galton à la fin du XIXe siècle, où il a décrit la 'régression vers la moyenne', et ont été formalisées par Karl Pearson. Le XXe siècle a étendu le modèle linéaire à plusieurs prédicteurs, et le cadre des modèles linéaires généralisés a ensuite unifié les modèles linéaires, logistiques et apparentés. En biostatistique, ces méthodes sont devenues l'appareil standard pour l'analyse ajustée et la prédiction du risque.

Key figures

Francis Galton
Karl Pearson
David Cox
Frank Harrell
Douglas Altman

Seminal works

altman-bland-2005
harrell-2015

Frequently asked questions

Quelle est la différence entre la corrélation et la régression ?: La corrélation résume la force et la direction de l'association entre deux variables en un seul coefficient symétrique, tandis que la régression modélise la dépendance d'un résultat (outcome) vis-à-vis d'un ou plusieurs prédicteurs et produit des coefficients qui peuvent être utilisés pour l'ajustement ou la prédiction. La corrélation ne distingue pas le résultat du prédicteur ; la régression le fait.
Quel modèle de régression devrait être utilisé ?: Le choix dépend du type de résultat : régression linéaire pour un résultat continu, régression logistique pour un résultat binaire, et d'autres modèles linéaires généralisés ou de survie pour les données de comptage ou de temps-à-événement. Les entrées thématiques individuelles décrivent chacune en détail.