Quelle est la différence entre la discrimination et la calibration ?

La discrimination est la capacité d'un modèle à classer les patients de manière à ce que ceux qui connaissent l'événement aient des risques prédits plus élevés que ceux qui ne le connaissent pas, tandis que la calibration est la concordance entre les probabilités prédites et les fréquences observées ; un modèle peut bien discriminer tout en étant mal calibré, les deux sont donc importants.

Pourquoi la validation externe est-elle importante pour les modèles de prédiction clinique ?

Les modèles sont souvent optimistes sur les données utilisées pour les construire ; les tests sur des populations et des contextes indépendants révèlent la capacité d'un modèle à se généraliser et protègent contre le déploiement d'outils qui échouent lorsque la composition des cas ou la documentation diffère des données de développement.

Apprentissage automatique et analyse prédictive dans les soins cliniques

L'apprentissage automatique et l'analyse prédictive utilisent des schémas dans les données cliniques et de santé pour estimer la probabilité d'événements, tels que les diagnostics, la détérioration de l'état de santé, les réadmissions ou la réponse au traitement, pour des patients individuels. Ce sujet aborde la manière dont les modèles de prédiction clinique sont développés, validés et rapportés, ainsi que les normes méthodologiques qui distinguent les modèles fiables de ceux qui peuvent induire en erreur.

Trouver un sujet avec PaperMindBientôtFind papers & topics

Tools & resources

Télécharger les diapositives

Learn & explore

VidéoBientôt

Definition

L'apprentissage automatique clinique est l'utilisation d'algorithmes qui apprennent des relations statistiques à partir de données de patients pour prédire des événements cliniquement pertinents ; un modèle de prédiction clinique combine plusieurs prédicteurs pour estimer la probabilité d'un diagnostic (diagnostique) ou d'un événement futur (pronostique) pour un individu.

Scope

Cette entrée couvre l'apprentissage supervisé pour le diagnostic et le pronostic, les sources de données et les caractéristiques utilisées en milieu clinique, les concepts centraux de validation que sont la discrimination, la calibration et la validation externe, les risques de biais et de surapprentissage, ainsi que les normes de rapportage et d'évaluation telles que TRIPOD et PROBAST. Elle présente l'apprentissage automatique clinique comme un sujet méthodologique, décrivant comment les outils prédictifs sont construits et évalués plutôt que d'offrir des recommandations cliniques.

Key concepts

Apprentissage supervisé (diagnostic et pronostic)
Discrimination, calibration et utilité clinique
Validation interne et externe
Surapprentissage (overfitting) et optimisme
Décalage des ensembles de données (dataset shift) et généralisabilité
Biais algorithmique et équité
Normes de rapportage (TRIPOD) et évaluation du risque de biais (PROBAST)
Apprentissage profond (deep learning) et apprentissage de caractéristiques

Mechanisms

Un modèle de prédiction clinique est ajusté sur des données étiquetées, apprenant comment les prédicteurs sont liés à un événement, et est ensuite évalué pour sa discrimination (sa capacité à séparer ceux qui connaissent l'événement de ceux qui ne le connaissent pas) et sa calibration (la concordance entre les probabilités prédites et les fréquences observées). Étant donné que les modèles ont tendance à être optimistes sur les données qui les ont entraînés, la validation interne et surtout externe sur de nouvelles populations est essentielle, et le déploiement peut être compromis par un décalage des ensembles de données (dataset shift) lorsque le contexte cible diffère du contexte de développement (Rajkomar, 2019). L'apprentissage profond (deep learning) étend ces idées en apprenant des caractéristiques directement à partir d'entrées brutes telles que des images, des signaux ou du texte, ce qui peut améliorer les performances sur les tâches perceptives tout en compliquant l'interprétabilité (Esteva, 2019).

Clinical relevance

Les modèles prédictifs alimentent de plus en plus les scores de risque, les alertes précoces et les outils de triage intégrés dans les systèmes cliniques, de sorte que leur exactitude, leur calibration et leur équité affectent directement la qualité des orientations que reçoivent les cliniciens. Cette entrée décrit comment ces modèles sont développés et évalués ; les sorties des modèles sont des estimations probabilistes nécessitant une interprétation et une supervision cliniques, et le texte ne constitue pas une base pour toute décision diagnostique ou thérapeutique individuelle.

Evidence & guidelines

Le consensus méthodologique met l'accent sur un développement transparent et une validation rigoureuse. La déclaration TRIPOD établit des normes de rapportage pour les études de modèles de prédiction afin que les méthodes et les performances puissent être évaluées (Collins, 2015), et PROBAST fournit un outil structuré pour évaluer le risque de biais et l'applicabilité dans de telles études (Wolff, 2019). Les revues sur l'apprentissage automatique en médecine soulignent l'importance de la validation externe, de la calibration, de l'attention aux biais, et de l'écart entre la performance rétrospective et le bénéfice clinique prospectif (Rajkomar, 2019 ; Esteva, 2019).

History

La prédiction clinique a de longues racines dans les scores de risque basés sur la régression, mais les années 2010 ont vu une croissance rapide de l'apprentissage automatique et de l'apprentissage profond, alimentée par les dossiers de santé électroniques, l'imagerie et des ensembles de données plus volumineux. Parallèlement, des préoccupations accrues concernant la reproductibilité, la performance exagérée et les biais sont apparues, ce qui a conduit à l'élaboration de cadres de rapportage et d'évaluation (TRIPOD, PROBAST) visant à soumettre les études de modèles à des normes méthodologiques cohérentes.

Debates

Pourquoi de nombreux modèles sont-ils moins performants en pratique que dans les études de développement ?: Une validation externe inadéquate, un décalage des ensembles de données (dataset shift) entre les contextes de développement et de déploiement, et un rapportage optimiste signifient qu'une forte performance rétrospective ne se traduit souvent pas par un bénéfice clinique prospectif, ce qui motive des normes de validation et de rapportage plus strictes.
Comment gérer les biais algorithmiques et l'équité ?: Les modèles entraînés sur des données historiques peuvent encoder et amplifier les disparités, soulevant un débat sur la manière de mesurer l'équité, quand les différences de performance entre les groupes sont acceptables, et comment surveiller les modèles déployés pour détecter les biais au fil du temps.

Key figures

Alvin Rajkomar
Gary S. Collins
Karel G. M. Moons
Isaac Kohane

Seminal works

rajkomar-2019
collins-2015
wolff-2019

Frequently asked questions

Quelle est la différence entre la discrimination et la calibration ?: La discrimination est la capacité d'un modèle à classer les patients de manière à ce que ceux qui connaissent l'événement aient des risques prédits plus élevés que ceux qui ne le connaissent pas, tandis que la calibration est la concordance entre les probabilités prédites et les fréquences observées ; un modèle peut bien discriminer tout en étant mal calibré, les deux sont donc importants.
Pourquoi la validation externe est-elle importante pour les modèles de prédiction clinique ?: Les modèles sont souvent optimistes sur les données utilisées pour les construire ; les tests sur des populations et des contextes indépendants révèlent la capacité d'un modèle à se généraliser et protègent contre le déploiement d'outils qui échouent lorsque la composition des cas ou la documentation diffère des données de développement.