Quelle est la différence entre discrimination et calibration ?

La discrimination mesure la capacité d'un modèle à séparer les individus qui présentent ou non le résultat, tandis que la calibration mesure la concordance entre les probabilités prédites par le modèle et les fréquences observées. Un modèle peut bien discriminer tout en étant mal calibré, il est donc important d'évaluer les deux.

Pourquoi la sélection pas à pas de variables est-elle déconseillée ?

La sélection pas à pas automatisée exploite les associations fortuites, produit des ensembles de prédicteurs instables qui varient d'un échantillon à l'autre, et génère des coefficients et des performances biaisés de manière optimiste, c'est pourquoi les modèles pré-spécifiés avec une validation appropriée sont généralement préférés.

Sélection et diagnostics de modèles

La sélection et les diagnostics de modèles sont les étapes qui déterminent quels prédicteurs un modèle de régression devrait contenir et si le modèle ajusté est fiable. La sélection choisit et structure les prédicteurs ; les diagnostics examinent les résidus, les observations influentes et les hypothèses ; et la validation vérifie si le modèle fonctionne sur des données à partir desquelles il n'a pas été construit. Ensemble, ils protègent contre le surapprentissage (overfitting) et les conclusions trompeuses.

Trouver un sujet avec PaperMindBientôtFind papers & topics

Tools & resources

Télécharger les diapositives

Learn & explore

VidéoBientôt

Definition

La sélection de modèles est le processus qui consiste à décider quels prédicteurs et quelles formes fonctionnelles inclure dans un modèle de régression ; les diagnostics de modèles sont les procédures — analyse des résidus, mesures d'influence, évaluation de la qualité de l'ajustement et de la calibration, et validation — utilisées pour juger si le modèle ajusté respecte ses hypothèses et fonctionne de manière adéquate.

Scope

Cette entrée couvre les stratégies de construction d'un modèle de régression (y compris les approches pas à pas et de modèle complet, ainsi que les dangers de la sélection basée sur les données), les diagnostics de résidus et d'influence pour vérifier les hypothèses, les mesures d'ajustement et de performance prédictive telles que la discrimination et la calibration, ainsi que la validation interne et externe. Elle s'applique aux modèles linéaires et logistiques et constitue un sujet méthodologique, non une orientation clinique.

Core questions

Comment les prédicteurs sont-ils choisis, et pourquoi la sélection pas à pas automatisée est-elle critiquée ?
Comment les résidus et les observations influentes sont-ils utilisés pour vérifier un modèle ?
Quelle est la différence entre discrimination et calibration ?
Pourquoi un modèle de prédiction doit-il être validé plutôt que jugé uniquement sur les données qui l'ont construit ?
Comment le surapprentissage et l'optimisme faussent-ils la performance apparente ?

Key concepts

Sélection de variables (prédicteurs)
Sélection pas à pas et ses pièges
Analyse des résidus
Observations influentes et levier
Qualité de l'ajustement
Discrimination et calibration
Surapprentissage et optimisme
Validation interne et externe

Mechanisms

La construction d'un modèle de régression implique de choisir quels prédicteurs sont inclus, sous quelle forme, et si des interactions sont nécessaires ; les procédures pas à pas automatisées qui ajoutent ou suppriment des prédicteurs en fonction de leur signification sont largement critiquées car elles exploitent les associations fortuites, produisent des modèles instables et génèrent des estimations optimistes. Les diagnostics examinent ensuite le modèle ajusté : les graphiques de résidus révèlent les écarts par rapport à la linéarité et la variance non constante, et les mesures d'influence identifient les observations qui influencent de manière disproportionnée l'ajustement. La performance est jugée par la qualité de l'ajustement et, pour la prédiction, par la discrimination (dans quelle mesure le modèle sépare les résultats) et la calibration (dans quelle mesure les risques prédits et observés concordent). Parce qu'un modèle ajusté et évalué sur les mêmes données semble meilleur qu'il ne l'est réellement (optimisme dû au surapprentissage), une validation interne (par exemple, par rééchantillonnage) et idéalement une validation externe sur de nouvelles données sont nécessaires pour estimer une performance honnête.

Clinical relevance

Les modèles diagnostiques et pronostiques éclairent une grande partie de la communication clinique des risques, et la question de savoir si un tel modèle a été correctement sélectionné, vérifié et validé détermine le poids que ses prédictions méritent. L'évaluation de ces étapes fait partie de la lecture des études sur les modèles de prédiction. Cette entrée décrit les méthodes et ne constitue pas une base pour des décisions diagnostiques ou thérapeutiques individuelles.

Evidence & guidelines

La déclaration TRIPOD fournit des normes de rapport pour les études qui développent ou valident des modèles de prédiction multivariables, et la série de recherche pronostique du BMJ expose les pratiques recommandées pour la construction, la validation et le rapport de tels modèles. Le texte de Harrell détaille une stratégie complète de construction et de validation de modèles qui met l'accent sur l'évitement de la sélection basée sur les données et la quantification de l'optimisme.

History

Alors que la régression devenait centrale dans la recherche médicale, la préoccupation grandissait que la sélection de prédicteurs basée sur les données et l'ajustement non vérifié produisaient des modèles qui semblaient impressionnants lors de leur développement mais échouaient sur de nouveaux patients. À partir des années 1990, les méthodologistes ont mis l'accent sur les diagnostics, la validation interne et externe, et la distinction entre discrimination et calibration ; cela a culminé avec des directives de rapport consensuelles, notamment la déclaration TRIPOD, pour les études de modèles de prédiction.

Debates

Les prédicteurs devraient-ils être choisis par sélection pas à pas automatisée ?: La sélection pas à pas guidée par des tests de signification est largement déconseillée car elle conduit au surapprentissage, produit des ensembles de prédicteurs instables et donne des estimations biaisées de manière optimiste ; les modèles pré-spécifiés informés par les connaissances du domaine, avec régularisation (shrinkage) et validation appropriée, sont généralement préférés.
Pourquoi la validation externe est-elle considérée comme essentielle pour les modèles de prédiction ?: Un modèle évalué uniquement sur ses données de développement semble meilleur qu'il ne l'est en raison du surapprentissage ; la performance sur des données indépendantes est nécessaire pour juger si les prédictions se généralisent, c'est pourquoi les normes de rapport insistent sur la validation.

Key figures

Frank Harrell
Douglas Altman
Karel Moons
Patrick Royston
Gary Collins

Seminal works

harrell-2015
collins-2015-tripod

Frequently asked questions

Quelle est la différence entre discrimination et calibration ?: La discrimination mesure la capacité d'un modèle à séparer les individus qui présentent ou non le résultat, tandis que la calibration mesure la concordance entre les probabilités prédites par le modèle et les fréquences observées. Un modèle peut bien discriminer tout en étant mal calibré, il est donc important d'évaluer les deux.
Pourquoi la sélection pas à pas de variables est-elle déconseillée ?: La sélection pas à pas automatisée exploite les associations fortuites, produit des ensembles de prédicteurs instables qui varient d'un échantillon à l'autre, et génère des coefficients et des performances biaisés de manière optimiste, c'est pourquoi les modèles pré-spécifiés avec une validation appropriée sont généralement préférés.