Régression linéaire multiple
La régression linéaire multiple étend le modèle linéaire simple à plusieurs variables explicatives simultanément, modélisant un résultat continu comme une somme pondérée de prédicteurs plus une ordonnée à l'origine. Chaque coefficient estime l'effet de son prédicteur en maintenant les autres constants, ce qui fait de ce modèle l'outil standard pour ajuster une association en fonction de facteurs de confusion et pour construire des prédictions multivariées.
Definition
La régression linéaire multiple ajuste E(Y) = b0 + b1X1 + b2X2 + ... + bkXk pour un résultat continu Y, estimant les coefficients par la méthode des moindres carrés de sorte que chaque bj quantifie le changement moyen de Y par augmentation d'une unité de Xj, les autres prédicteurs étant maintenus constants.
Scope
Cette entrée couvre le modèle linéaire multivarié : l'interprétation de chaque coefficient comme un effet ajusté, la gestion des prédicteurs catégoriels et des interactions, les préoccupations supplémentaires introduites par plusieurs prédicteurs (colinéarité, surapprentissage, et la manière dont les prédicteurs sont choisis), ainsi que les mêmes hypothèses basées sur les résidus que le modèle simple. Il s'agit d'un sujet méthodologique, et non d'une directive clinique.
Core questions
- Que signifie interpréter un coefficient 'en maintenant les autres variables constantes' ?
- Comment la régression multiple ajuste-t-elle une association en fonction des facteurs de confusion ?
- Comment les prédicteurs catégoriels et les interactions sont-ils représentés dans le modèle ?
- Quels problèmes la colinéarité et un trop grand nombre de prédicteurs entraînent-ils ?
- Comment le nombre de prédicteurs est-il équilibré par rapport à la taille de l'échantillon pour éviter le surapprentissage ?
Key concepts
- Coefficient de régression ajusté (partiel)
- Contrôle des facteurs de confusion par ajustement
- Codage par variables indicatrices (muettes) des prédicteurs catégoriels
- Termes d'interaction (modification d'effet)
- Multicolinéarité
- Surapprentissage et événements/observations par prédicteur
- R-carré du modèle et R-carré ajusté
- Linéarité, indépendance, variance constante, erreurs normales
Mechanisms
Le modèle exprime le résultat moyen comme une ordonnée à l'origine plus une somme pondérée de prédicteurs, les poids (coefficients) étant estimés par la méthode des moindres carrés. Chaque coefficient est un effet partiel : le changement attendu du résultat par unité de changement de ce prédicteur, les autres étant fixés, ce qui est le mécanisme par lequel la régression ajuste les facteurs de confusion. Les prédicteurs catégoriels sont introduits comme variables indicatrices (muettes), et les termes d'interaction permettent à l'effet d'un prédicteur de dépendre d'un autre. Lorsque les prédicteurs sont fortement corrélés (multicolinéarité), les coefficients individuels deviennent instables et difficiles à interpréter, même si la prédiction globale peut ne pas être affectée. L'inclusion d'un trop grand nombre de prédicteurs par rapport à la taille de l'échantillon conduit au surapprentissage (overfitting), où le modèle capture le bruit et fonctionne mal sur de nouvelles données ; ce qui motive la limitation des prédicteurs par rapport à la taille de l'échantillon et la validation du modèle.
Clinical relevance
La régression linéaire multiple produit la plupart des associations ajustées rapportées pour les résultats continus dans la recherche clinique et en santé publique et constitue un élément fondamental des travaux de prédiction de risque. Savoir comment ses coefficients sont interprétés et comment les facteurs de confusion sont contrôlés est essentiel pour évaluer de telles études. Cette entrée décrit la méthode et ne constitue pas une base pour des décisions individuelles de diagnostic ou de traitement.
Evidence & guidelines
Des ouvrages de référence tels que ceux de Kutner et collègues et de Harrell exposent les stratégies de modélisation recommandées, et les travaux méthodologiques mettent en garde contre les pratiques évitables — notamment la dichotomisation des prédicteurs continus, qui entraîne une perte d'information et peut biaiser les estimations. La déclaration TRIPOD couvre la présentation des modèles de prédiction.
History
L'extension multivariée du modèle linéaire s'est développée grâce aux travaux du début du XXe siècle de Pearson, Fisher et d'autres, qui ont établi l'estimation par les moindres carrés et l'inférence pour plusieurs prédicteurs. En biostatistique, le modèle est devenu la méthode standard pour ajuster les associations en fonction des facteurs de confusion, et la littérature méthodologique ultérieure s'est concentrée sur la manière dont les prédicteurs devraient être sélectionnés et comment le surapprentissage et la dichotomisation faussent les résultats.
Debates
- Les prédicteurs continus devraient-ils être dichotomisés dans un modèle de régression ?
- Diviser un prédicteur continu à un point de coupure entraîne une perte d'information, réduit la puissance et peut fausser la relation estimée ; les méthodologistes soutiennent que les prédicteurs continus devraient généralement être maintenus continus, la non-linéarité étant modélisée de manière flexible plutôt que supprimée par catégorisation.
Key figures
- Karl Pearson
- Ronald A. Fisher
- Frank Harrell
- Douglas Altman
- Patrick Royston
Related topics
Seminal works
- altman-royston-2006-cost
- harrell-2015
Frequently asked questions
- Pourquoi la régression multiple est-elle utilisée pour contrôler les facteurs de confusion ?
- Parce que chaque coefficient estime l'effet de son prédicteur tandis que les autres prédicteurs du modèle sont maintenus constants, inclure un facteur de confusion comme prédicteur ajuste l'effet estimé de l'exposition d'intérêt pour ce facteur de confusion.
- Qu'est-ce que la multicolinéarité et pourquoi est-elle importante ?
- La multicolinéarité est une forte corrélation entre les prédicteurs. Elle rend les estimations des coefficients individuels instables et difficiles à interpréter, avec des erreurs standard gonflées, même si la précision prédictive globale du modèle peut ne pas être affectée.