Régression logistique
La régression logistique modélise la probabilité d'un résultat binaire (oui/non) en fonction d'un ou plusieurs prédicteurs. Étant donné que les probabilités sont bornées entre 0 et 1, le modèle opère sur l'échelle des log-cotes (log-odds), de sorte que chaque coefficient correspond à un changement dans les log-cotes et s'exponentie en un rapport de cotes. C'est la méthode de régression standard pour les résultats binaires dans les sciences de la santé.
Definition
La régression logistique modélise les log-cotes (logit) d'un résultat binaire comme une fonction linéaire des prédicteurs, logit(P) = b0 + b1X1 + ... + bkXk, estimant les coefficients par maximum de vraisemblance de sorte que le coefficient exponentié exp(bj) soit le rapport de cotes ajusté pour le prédicteur Xj.
Scope
Cette entrée couvre le modèle logistique binaire : la fonction de lien logit et les raisons de son utilisation, l'interprétation des coefficients comme rapports de cotes, l'estimation par maximum de vraisemblance, l'ajustement pour les facteurs de confusion, et les préoccupations pratiques concernant la taille de l'échantillon (événements par variable), la séparation et la qualité de l'ajustement. Elle note également la distinction entre les rapports de cotes et les rapports de risques. Il s'agit d'un sujet méthodologique, et non d'une orientation clinique.
Core questions
- Pourquoi un résultat binaire est-il modélisé sur l'échelle des log-cotes plutôt que directement comme une probabilité ?
- Comment un coefficient de régression logistique est-il interprété comme un rapport de cotes ?
- Comment les coefficients sont-ils estimés, et comment le modèle s'ajuste-t-il aux facteurs de confusion ?
- Combien d'événements de résultat sont nécessaires par prédicteur pour des estimations stables ?
- Quand le rapport de cotes diffère-t-il de manière significative du rapport de risques ?
Key concepts
- Fonction de lien logit (log-cotes)
- Rapport de cotes comme exp(coefficient)
- Estimation par maximum de vraisemblance
- Rapport de cotes ajusté versus brut
- Événements par variable
- Séparation et quasi-séparation complète
- Qualité de l'ajustement et calibration
- Rapport de cotes versus rapport de risques
Mechanisms
Modéliser une probabilité directement avec un prédicteur linéaire est problématique car les prédictions pourraient tomber en dehors de l'intervalle 0 à 1 ; la fonction de lien logit résout ce problème en transformant la probabilité en ses log-cotes, qui sont non bornées et modélisées linéairement. Les coefficients sont estimés par maximum de vraisemblance plutôt que par moindres carrés, et chaque coefficient exponentié est le rapport de cotes comparant les cotes du résultat pour une différence d'une unité dans ce prédicteur, les autres étant maintenus constants. Une estimation stable nécessite suffisamment d'événements de résultat par rapport au nombre de prédicteurs ; la recommandation traditionnelle d'environ dix événements par variable a été examinée et partiellement assouplie dans des travaux ultérieurs. Lorsqu'un prédicteur sépare parfaitement les classes de résultats, l'estimation par maximum de vraisemblance ordinaire échoue (séparation), et des approches pénalisées y remédient. Étant donné que le modèle estime des rapports de cotes, ceux-ci peuvent surestimer le rapport de risques lorsque le résultat est fréquent, ce qui a motivé des approches alternatives telles que la régression de Poisson modifiée pour estimer directement les rapports de risques.
Clinical relevance
La régression logistique est à la base d'une grande partie des rapports de cotes ajustés et des modèles diagnostiques et pronostiques rapportés dans la recherche clinique et épidémiologique. Comprendre que ses coefficients sont des rapports de cotes, et quand ceux-ci divergent des rapports de risques, est essentiel pour interpréter de telles études. Cette entrée décrit la méthode et ne constitue pas une base pour des décisions diagnostiques ou thérapeutiques individuelles.
Epidemiology
La régression logistique est l'analyse naturelle pour les études cas-témoins, où le rapport de cotes est la mesure d'association estimable, et est largement utilisée dans les études de cohorte et transversales pour obtenir des estimations d'effet ajustées pour les résultats binaires. Lorsque le résultat est fréquent dans une cohorte, le rapport de cotes s'écarte du rapport de risques, et les analystes peuvent préférer des méthodes qui estiment directement le rapport de risques.
Evidence & guidelines
L'ouvrage de Hosmer, Lemeshow et Sturdivant est une référence standard pour l'ajustement et l'évaluation des modèles logistiques. La déclaration TRIPOD couvre la présentation des modèles de prédiction construits avec la régression logistique, et des études méthodologiques informent les recommandations sur la taille de l'échantillon, telles que les événements par variable.
History
La fonction logistique a des racines au XIXe siècle dans la croissance démographique, et son utilisation pour la régression binaire a été développée au milieu du XXe siècle, les travaux de David Cox consolidant la méthode pour l'analyse des données binaires. Elle est devenue un outil essentiel de l'épidémiologie, en particulier pour l'analyse cas-témoins où le rapport de cotes est la mesure naturelle. La littérature méthodologique ultérieure a abordé des problèmes pratiques, notamment la taille de l'échantillon, la séparation et la divergence des rapports de cotes par rapport aux rapports de risques.
Debates
- Combien d'événements de résultat sont nécessaires par prédicteur ?
- Une règle de longue date d'environ dix événements par variable a été étayée par des travaux de simulation, mais des études ultérieures ont soutenu que cette règle est conservatrice et dépendante du contexte, de sorte que moins d'événements peuvent parfois suffire tandis que davantage peuvent être nécessaires dans d'autres situations.
- Le rapport de cotes doit-il être utilisé lorsque le résultat est fréquent ?
- Lorsqu'un résultat est fréquent, le rapport de cotes surestime le rapport de risques et peut être mal interprété comme un risque relatif ; des alternatives telles que la régression de Poisson modifiée estiment directement le rapport de risques et ont été proposées pour les études prospectives avec des résultats binaires.
Key figures
- David Cox
- David Hosmer
- Stanley Lemeshow
- Peter Peduzzi
- Eric Vittinghoff
Related topics
Seminal works
- hosmer-2013
- peduzzi-1996
Frequently asked questions
- Pourquoi la régression logistique rapporte-t-elle des rapports de cotes ?
- Parce que le modèle est linéaire sur l'échelle des log-cotes, chaque coefficient représente un changement dans les log-cotes, et son exponentiation donne un rapport de cotes. Le rapport de cotes est donc la mesure d'effet naturelle que le modèle produit pour un résultat binaire.
- Quand un rapport de cotes est-il une mauvaise approximation du rapport de risques ?
- Lorsque le résultat est fréquent, le rapport de cotes diverge et surestime le rapport de risques. Dans cette situation, un rapport de cotes peut induire en erreur s'il est lu comme un risque relatif, et des méthodes qui estiment directement le rapport de risques peuvent être préférables.