Régression linéaire simple
La régression linéaire simple modélise la valeur attendue d'un résultat continu comme une fonction linéaire d'une seule variable explicative. Elle estime une ordonnée à l'origine et une pente par la méthode des moindres carrés, où la pente exprime la variation moyenne du résultat pour chaque augmentation d'une unité du prédicteur. C'est le modèle de régression fondamental à partir duquel des modèles plus élaborés sont construits.
Definition
La régression linéaire simple ajuste le modèle E(Y) = a + bX, estimant l'ordonnée à l'origine a et la pente b en minimisant la somme des carrés des résidus (moindres carrés ordinaires), de sorte que la pente quantifie la variation moyenne du résultat continu Y par unité d'augmentation du prédicteur unique X.
Scope
Cette entrée couvre le modèle linéaire avec un seul prédicteur : la signification de l'ordonnée à l'origine et de la pente, l'estimation par les moindres carrés, les hypothèses de linéarité, d'indépendance, de variance constante et de résidus approximativement normaux, ainsi que l'interprétation de l'ajustement par les intervalles de confiance, la prédiction et le coefficient de détermination. Il s'agit d'un sujet méthodologique, et non d'une directive clinique.
Core questions
- Comment une droite est-elle ajustée aux données, et que minimise la méthode des « moindres carrés » ?
- Que signifient concrètement l'ordonnée à l'origine et la pente ?
- Quelles hypothèses doivent être respectées pour que les estimations et leurs intervalles de confiance soient valides ?
- Comment la régression linéaire simple est-elle liée au coefficient de corrélation ?
- Comment la droite ajustée est-elle utilisée pour l'estimation par rapport à la prédiction ?
Key concepts
- Ordonnée à l'origine et pente
- Moindres carrés ordinaires
- Résidus
- Hypothèses : linéarité, indépendance, variance constante, erreurs normales
- Intervalle de confiance pour la pente
- Coefficient de détermination (R-carré)
- Intervalles de confiance versus intervalles de prédiction
- Régression vers la moyenne
Mechanisms
Le modèle postule que la moyenne du résultat se situe sur une ligne droite en fonction du prédicteur, avec des observations individuelles dispersées autour de cette ligne. Les moindres carrés ordinaires choisissent l'ordonnée à l'origine et la pente qui minimisent la somme des carrés des distances verticales (résidus) entre les valeurs observées et ajustées. L'estimation de la pente possède une erreur standard à partir de laquelle découlent un intervalle de confiance et un test d'hypothèse, valides lorsque les résidus sont indépendants, ont une variance approximativement constante et sont approximativement normalement distribués. Le coefficient de détermination, R-carré, indique la proportion de la variance du résultat expliquée par le prédicteur et est égal au carré de la corrélation de Pearson dans le cas d'un prédicteur simple. Un intervalle de confiance décrit l'incertitude de la moyenne du résultat pour une valeur donnée du prédicteur, tandis qu'un intervalle de prédiction, qui est plus large, décrit l'incertitude d'une observation future individuelle.
Clinical relevance
La régression linéaire simple est fréquemment rencontrée dans la littérature scientifique en santé pour décrire la relation entre deux mesures continues et pour construire des relations de référence et des courbes d'étalonnage. La reconnaissance de ses hypothèses fait partie de l'évaluation de telles analyses. Cette entrée décrit la méthode et ne constitue pas une base pour des décisions diagnostiques ou thérapeutiques individuelles.
Evidence & guidelines
Les ouvrages de référence en statistiques médicales et la série « Statistics Notes » du BMJ décrivent comment les droites de régression, les pentes et leurs intervalles de confiance doivent être rapportés et interprétés, et soulignent l'importance de vérifier les résidus avant de se fier à une droite ajustée.
History
Le modèle linéaire remonte à l'observation de Francis Galton au XIXe siècle de la « régression vers la moyenne » dans les traits héréditaires, le phénomène qui a donné son nom à la régression, et à la méthode des moindres carrés développée plus tôt en astronomie et en géodésie. Pearson et ses successeurs ont formalisé l'inférence pour la pente, et le modèle est devenu le point d'entrée de l'appareil de régression plus large de la biostatistique moderne.
Key figures
- Francis Galton
- Karl Pearson
- Douglas Altman
- Martin Bland
Related topics
Seminal works
- altman-1991
- kutner-2005
Frequently asked questions
- Que signifie la pente dans une régression linéaire simple ?
- La pente représente la variation moyenne du résultat pour chaque augmentation d'une unité du prédicteur. Son intervalle de confiance et sa valeur p indiquent la précision de son estimation et si l'association est distinguable d'une absence de relation.
- Quelle est la différence entre un intervalle de confiance et un intervalle de prédiction pour une droite de régression ?
- Un intervalle de confiance exprime l'incertitude concernant la moyenne du résultat pour une valeur donnée du prédicteur, tandis qu'un intervalle de prédiction, qui est plus large, exprime l'incertitude concernant une nouvelle observation individuelle à cette valeur, car il inclut également la dispersion des points autour de la droite.