Qual é a diferença entre discriminação e calibração?

A discriminação é a capacidade de um modelo de classificar os pacientes de modo que aqueles que experimentam o desfecho obtenham riscos previstos mais altos do que aqueles que não o experimentam, enquanto a calibração é a concordância entre as probabilidades previstas e as frequências observadas; um modelo pode discriminar bem, mas ser mal calibrado, portanto, ambos são importantes.

Por que a validação externa é importante para modelos de predição clínica?

Os modelos geralmente têm um desempenho otimista nos dados usados para construí-los; o teste em populações e ambientes independentes revela o quão bem um modelo generaliza e protege contra a implantação de ferramentas que falham quando a mistura de casos ou a documentação difere dos dados de desenvolvimento.

Aprendizado de Máquina e Análise Preditiva na Assistência Clínica

O aprendizado de máquina e a análise preditiva utilizam padrões em dados clínicos e de saúde para estimar a probabilidade de desfechos, como diagnósticos, deterioração, readmissão ou resposta ao tratamento, para pacientes individuais. Este tópico aborda como os modelos de predição clínica são desenvolvidos, validados e relatados, e os padrões metodológicos que distinguem modelos confiáveis de modelos enganosos.

Encontrar tema com PaperMindEm breveFind papers & topics

Tools & resources

Baixar slides

Learn & explore

VídeoEm breve

Definition

O aprendizado de máquina clínico é o uso de algoritmos que aprendem relações estatísticas a partir de dados de pacientes para prever desfechos clinicamente relevantes; um modelo de predição clínica combina múltiplos preditores para estimar a probabilidade de um diagnóstico (diagnóstico) ou um evento futuro (prognóstico) para um indivíduo.

Scope

A entrada abrange o aprendizado supervisionado para diagnóstico e prognóstico, as fontes de dados e características utilizadas em ambientes clínicos, os conceitos centrais de validação de discriminação, calibração e validação externa, os riscos de viés e sobreajuste (overfitting), e os padrões de relato e avaliação, como TRIPOD e PROBAST. Ela enquadra o aprendizado de máquina clínico como um tópico metodológico, descrevendo como as ferramentas preditivas são construídas e julgadas, em vez de oferecer recomendações clínicas.

Key concepts

Aprendizado supervisionado (diagnóstico e prognóstico)
Discriminação, calibração e utilidade clínica
Validação interna e externa
Sobreajuste (overfitting) e otimismo
Mudança de conjunto de dados (dataset shift) e generalizabilidade
Viés algorítmico e imparcialidade
Padrões de relato (TRIPOD) e avaliação de risco de viés (PROBAST)
Aprendizado profundo (deep learning) e aprendizado de características (feature learning)

Mechanisms

Um modelo de predição clínica é ajustado em dados rotulados, aprendendo como os preditores se relacionam com um desfecho, e é então avaliado quanto à discriminação (quão bem ele separa aqueles que experimentam e não experimentam o desfecho) e calibração (quão bem as probabilidades previstas correspondem às frequências observadas). Como os modelos tendem a ter um desempenho otimista nos dados que os treinaram, a validação interna e, especialmente, a validação externa em novas populações são essenciais, e a implantação pode ser comprometida pela mudança de conjunto de dados (dataset shift) quando o ambiente alvo difere do ambiente de desenvolvimento (Rajkomar, 2019). O aprendizado profundo (deep learning) estende essas ideias aprendendo características diretamente de entradas brutas, como imagens, sinais ou texto, o que pode melhorar o desempenho em tarefas perceptivas, ao mesmo tempo em que complica a interpretabilidade (Esteva, 2019).

Clinical relevance

Modelos preditivos alimentam cada vez mais escores de risco, alertas de aviso precoce e ferramentas de triagem incorporadas em sistemas clínicos, de modo que sua precisão, calibração e imparcialidade afetam diretamente a qualidade da orientação que os clínicos recebem. Esta entrada descreve como esses modelos são desenvolvidos e avaliados; as saídas do modelo são estimativas probabilísticas que exigem interpretação e supervisão clínica, e o texto não é base para qualquer decisão individual de diagnóstico ou tratamento.

Evidence & guidelines

O consenso metodológico enfatiza o desenvolvimento transparente e a validação rigorosa. A declaração TRIPOD estabelece padrões de relato para estudos de modelos de predição para que os métodos e o desempenho possam ser avaliados (Collins, 2015), e o PROBAST fornece uma ferramenta estruturada para julgar o risco de viés e a aplicabilidade em tais estudos (Wolff, 2019). Revisões de aprendizado de máquina em medicina enfatizam a validação externa, a calibração, a atenção ao viés e a lacuna entre o desempenho retrospectivo e o benefício clínico prospectivo (Rajkomar, 2019; Esteva, 2019).

History

A predição clínica tem raízes antigas em escores de risco baseados em regressão, mas a década de 2010 viu um rápido crescimento do aprendizado de máquina e do aprendizado profundo (deep learning) alimentados por registros eletrônicos de saúde, imagens e conjuntos de dados maiores. Juntamente com isso, surgiu uma preocupação crescente com a reprodutibilidade, o desempenho superestimado e o viés, o que levou a estruturas de relato e avaliação (TRIPOD, PROBAST) destinadas a manter os estudos de modelos em padrões metodológicos consistentes.

Debates

Por que muitos modelos têm um desempenho pior na prática do que nos estudos de desenvolvimento?: A validação externa inadequada, a mudança de conjunto de dados (dataset shift) entre os ambientes de desenvolvimento e implantação, e o relato otimista significam que um forte desempenho retrospectivo muitas vezes não se traduz em benefício clínico prospectivo, motivando padrões de validação e relato mais rigorosos.
Como o viés algorítmico e a imparcialidade devem ser tratados?: Modelos treinados em dados históricos podem codificar e amplificar disparidades, levantando debate sobre como medir a imparcialidade, quando as diferenças de desempenho entre grupos são aceitáveis e como monitorar modelos implantados para viés ao longo do tempo.

Key figures

Alvin Rajkomar
Gary S. Collins
Karel G. M. Moons
Isaac Kohane

Seminal works

rajkomar-2019
collins-2015
wolff-2019

Frequently asked questions

Qual é a diferença entre discriminação e calibração?: A discriminação é a capacidade de um modelo de classificar os pacientes de modo que aqueles que experimentam o desfecho obtenham riscos previstos mais altos do que aqueles que não o experimentam, enquanto a calibração é a concordância entre as probabilidades previstas e as frequências observadas; um modelo pode discriminar bem, mas ser mal calibrado, portanto, ambos são importantes.
Por que a validação externa é importante para modelos de predição clínica?: Os modelos geralmente têm um desempenho otimista nos dados usados para construí-los; o teste em populações e ambientes independentes revela o quão bem um modelo generaliza e protege contra a implantação de ferramentas que falham quando a mistura de casos ou a documentação difere dos dados de desenvolvimento.