Aprendizado de Máquina e Análise Preditiva na Assistência Clínica
O aprendizado de máquina e a análise preditiva utilizam padrões em dados clínicos e de saúde para estimar a probabilidade de desfechos, como diagnósticos, deterioração, readmissão ou resposta ao tratamento, para pacientes individuais. Este tópico aborda como os modelos de predição clínica são desenvolvidos, validados e relatados, e os padrões metodológicos que distinguem modelos confiáveis de modelos enganosos.
Definition
O aprendizado de máquina clínico é o uso de algoritmos que aprendem relações estatísticas a partir de dados de pacientes para prever desfechos clinicamente relevantes; um modelo de predição clínica combina múltiplos preditores para estimar a probabilidade de um diagnóstico (diagnóstico) ou um evento futuro (prognóstico) para um indivíduo.
Scope
A entrada abrange o aprendizado supervisionado para diagnóstico e prognóstico, as fontes de dados e características utilizadas em ambientes clínicos, os conceitos centrais de validação de discriminação, calibração e validação externa, os riscos de viés e sobreajuste (overfitting), e os padrões de relato e avaliação, como TRIPOD e PROBAST. Ela enquadra o aprendizado de máquina clínico como um tópico metodológico, descrevendo como as ferramentas preditivas são construídas e julgadas, em vez de oferecer recomendações clínicas.
Key concepts
- Aprendizado supervisionado (diagnóstico e prognóstico)
- Discriminação, calibração e utilidade clínica
- Validação interna e externa
- Sobreajuste (overfitting) e otimismo
- Mudança de conjunto de dados (dataset shift) e generalizabilidade
- Viés algorítmico e imparcialidade
- Padrões de relato (TRIPOD) e avaliação de risco de viés (PROBAST)
- Aprendizado profundo (deep learning) e aprendizado de características (feature learning)
Mechanisms
Um modelo de predição clínica é ajustado em dados rotulados, aprendendo como os preditores se relacionam com um desfecho, e é então avaliado quanto à discriminação (quão bem ele separa aqueles que experimentam e não experimentam o desfecho) e calibração (quão bem as probabilidades previstas correspondem às frequências observadas). Como os modelos tendem a ter um desempenho otimista nos dados que os treinaram, a validação interna e, especialmente, a validação externa em novas populações são essenciais, e a implantação pode ser comprometida pela mudança de conjunto de dados (dataset shift) quando o ambiente alvo difere do ambiente de desenvolvimento (Rajkomar, 2019). O aprendizado profundo (deep learning) estende essas ideias aprendendo características diretamente de entradas brutas, como imagens, sinais ou texto, o que pode melhorar o desempenho em tarefas perceptivas, ao mesmo tempo em que complica a interpretabilidade (Esteva, 2019).
Clinical relevance
Modelos preditivos alimentam cada vez mais escores de risco, alertas de aviso precoce e ferramentas de triagem incorporadas em sistemas clínicos, de modo que sua precisão, calibração e imparcialidade afetam diretamente a qualidade da orientação que os clínicos recebem. Esta entrada descreve como esses modelos são desenvolvidos e avaliados; as saídas do modelo são estimativas probabilísticas que exigem interpretação e supervisão clínica, e o texto não é base para qualquer decisão individual de diagnóstico ou tratamento.
Evidence & guidelines
O consenso metodológico enfatiza o desenvolvimento transparente e a validação rigorosa. A declaração TRIPOD estabelece padrões de relato para estudos de modelos de predição para que os métodos e o desempenho possam ser avaliados (Collins, 2015), e o PROBAST fornece uma ferramenta estruturada para julgar o risco de viés e a aplicabilidade em tais estudos (Wolff, 2019). Revisões de aprendizado de máquina em medicina enfatizam a validação externa, a calibração, a atenção ao viés e a lacuna entre o desempenho retrospectivo e o benefício clínico prospectivo (Rajkomar, 2019; Esteva, 2019).
History
A predição clínica tem raízes antigas em escores de risco baseados em regressão, mas a década de 2010 viu um rápido crescimento do aprendizado de máquina e do aprendizado profundo (deep learning) alimentados por registros eletrônicos de saúde, imagens e conjuntos de dados maiores. Juntamente com isso, surgiu uma preocupação crescente com a reprodutibilidade, o desempenho superestimado e o viés, o que levou a estruturas de relato e avaliação (TRIPOD, PROBAST) destinadas a manter os estudos de modelos em padrões metodológicos consistentes.
Debates
- Por que muitos modelos têm um desempenho pior na prática do que nos estudos de desenvolvimento?
- A validação externa inadequada, a mudança de conjunto de dados (dataset shift) entre os ambientes de desenvolvimento e implantação, e o relato otimista significam que um forte desempenho retrospectivo muitas vezes não se traduz em benefício clínico prospectivo, motivando padrões de validação e relato mais rigorosos.
- Como o viés algorítmico e a imparcialidade devem ser tratados?
- Modelos treinados em dados históricos podem codificar e amplificar disparidades, levantando debate sobre como medir a imparcialidade, quando as diferenças de desempenho entre grupos são aceitáveis e como monitorar modelos implantados para viés ao longo do tempo.
Key figures
- Alvin Rajkomar
- Gary S. Collins
- Karel G. M. Moons
- Isaac Kohane
Related topics
Seminal works
- rajkomar-2019
- collins-2015
- wolff-2019
Frequently asked questions
- Qual é a diferença entre discriminação e calibração?
- A discriminação é a capacidade de um modelo de classificar os pacientes de modo que aqueles que experimentam o desfecho obtenham riscos previstos mais altos do que aqueles que não o experimentam, enquanto a calibração é a concordância entre as probabilidades previstas e as frequências observadas; um modelo pode discriminar bem, mas ser mal calibrado, portanto, ambos são importantes.
- Por que a validação externa é importante para modelos de predição clínica?
- Os modelos geralmente têm um desempenho otimista nos dados usados para construí-los; o teste em populações e ambientes independentes revela o quão bem um modelo generaliza e protege contra a implantação de ferramentas que falham quando a mistura de casos ou a documentação difere dos dados de desenvolvimento.