¿Cuál es la diferencia entre discriminación y calibración?

La discriminación es la capacidad de un modelo para clasificar a los pacientes de modo que aquellos que experimentan el resultado obtengan riesgos predichos más altos que aquellos que no lo hacen, mientras que la calibración es la concordancia entre las probabilidades predichas y las frecuencias observadas; un modelo puede discriminar bien pero estar mal calibrado, por lo que ambos aspectos son importantes.

¿Por qué es importante la validación externa para los modelos de predicción clínica?

Los modelos a menudo tienen un rendimiento optimista en los datos utilizados para construirlos; las pruebas en poblaciones y entornos independientes revelan qué tan bien se generaliza un modelo y protegen contra la implementación de herramientas que fallan cuando la combinación de casos o la documentación difiere de los datos de desarrollo.

Aprendizaje automático y análisis predictivo en la atención clínica

El aprendizaje automático y el análisis predictivo utilizan patrones en datos clínicos y de salud para estimar la probabilidad de resultados, como diagnósticos, deterioro, reingreso o respuesta al tratamiento, para pacientes individuales. Este tema cubre cómo se desarrollan, validan y reportan los modelos de predicción clínica, y los estándares metodológicos que distinguen los modelos fiables de los engañosos.

Encontrar tema con PaperMindPróximamenteFind papers & topics

Tools & resources

Descargar diapositivas

Learn & explore

VídeoPróximamente

Definition

El aprendizaje automático clínico es el uso de algoritmos que aprenden relaciones estadísticas a partir de datos de pacientes para predecir resultados clínicamente relevantes; un modelo de predicción clínica combina múltiples predictores para estimar la probabilidad de un diagnóstico (diagnóstico) o un evento futuro (pronóstico) para un individuo.

Scope

La entrada cubre el aprendizaje supervisado para el diagnóstico y el pronóstico, las fuentes de datos y las características utilizadas en entornos clínicos, los conceptos centrales de validación de discriminación, calibración y validación externa, los riesgos de sesgo y sobreajuste (overfitting), y los estándares de reporte y evaluación como TRIPOD y PROBAST. Enmarca el aprendizaje automático clínico como un tema metodológico, describiendo cómo se construyen y juzgan las herramientas predictivas en lugar de ofrecer recomendaciones clínicas.

Key concepts

Aprendizaje supervisado (diagnóstico y pronóstico)
Discriminación, calibración y utilidad clínica
Validación interna y externa
Sobreajuste (overfitting) y optimismo
Desplazamiento del conjunto de datos (dataset shift) y generalizabilidad
Sesgo algorítmico y equidad
Estándares de reporte (TRIPOD) y evaluación del riesgo de sesgo (PROBAST)
Aprendizaje profundo (deep learning) y aprendizaje de características (feature learning)

Mechanisms

Un modelo de predicción clínica se ajusta a datos etiquetados, aprendiendo cómo los predictores se relacionan con un resultado, y luego se evalúa su discriminación (qué tan bien separa a quienes experimentan el resultado de quienes no lo hacen) y calibración (qué tan bien las probabilidades predichas coinciden con las frecuencias observadas). Debido a que los modelos tienden a tener un rendimiento optimista en los datos con los que fueron entrenados, la validación interna y, especialmente, la externa en nuevas poblaciones son esenciales, y la implementación puede verse comprometida por el desplazamiento del conjunto de datos (dataset shift) cuando el entorno objetivo difiere del entorno de desarrollo (Rajkomar, 2019). El aprendizaje profundo (deep learning) extiende estas ideas al aprender características directamente de entradas crudas como imágenes, señales o texto, lo que puede mejorar el rendimiento en tareas perceptivas al tiempo que complica la interpretabilidad (Esteva, 2019).

Clinical relevance

Los modelos predictivos alimentan cada vez más las puntuaciones de riesgo, las alertas de advertencia temprana y las herramientas de triaje integradas en los sistemas clínicos, por lo que su precisión, calibración y equidad afectan directamente la calidad de la orientación que reciben los clínicos. Esta entrada describe cómo se desarrollan y evalúan dichos modelos; los resultados del modelo son estimaciones probabilísticas que requieren interpretación y supervisión clínica, y el texto no es una base para ninguna decisión diagnóstica o de tratamiento individual.

Evidence & guidelines

El consenso metodológico enfatiza el desarrollo transparente y la validación rigurosa. La declaración TRIPOD establece estándares de reporte para estudios de modelos de predicción para que los métodos y el rendimiento puedan ser evaluados (Collins, 2015), y PROBAST proporciona una herramienta estructurada para juzgar el riesgo de sesgo y la aplicabilidad en dichos estudios (Wolff, 2019). Las revisiones sobre aprendizaje automático en medicina enfatizan la validación externa, la calibración, la atención al sesgo y la brecha entre el rendimiento retrospectivo y el beneficio clínico prospectivo (Rajkomar, 2019; Esteva, 2019).

History

La predicción clínica tiene profundas raíces en las puntuaciones de riesgo basadas en regresión, pero la década de 2010 vio un rápido crecimiento del aprendizaje automático y el aprendizaje profundo (deep learning) alimentados por registros de salud electrónicos, imágenes y conjuntos de datos más grandes. Junto con esto surgió una mayor preocupación por la reproducibilidad, el rendimiento exagerado y el sesgo, lo que impulsó marcos de reporte y evaluación (TRIPOD, PROBAST) destinados a someter los estudios de modelos a estándares metodológicos consistentes.

Debates

¿Por qué muchos modelos tienen un rendimiento peor en la práctica que en los estudios de desarrollo?: La validación externa inadecuada, el desplazamiento del conjunto de datos (dataset shift) entre los entornos de desarrollo e implementación, y el reporte optimista significan que un rendimiento retrospectivo sólido a menudo no se traduce en un beneficio clínico prospectivo, lo que motiva estándares de validación y reporte más estrictos.
¿Cómo deben abordarse el sesgo algorítmico y la equidad?: Los modelos entrenados con datos históricos pueden codificar y amplificar las disparidades, lo que genera debate sobre cómo medir la equidad, cuándo son aceptables las diferencias de rendimiento entre grupos y cómo monitorear los modelos implementados en busca de sesgos a lo largo del tiempo.

Key figures

Alvin Rajkomar
Gary S. Collins
Karel G. M. Moons
Isaac Kohane

Seminal works

rajkomar-2019
collins-2015
wolff-2019

Frequently asked questions

¿Cuál es la diferencia entre discriminación y calibración?: La discriminación es la capacidad de un modelo para clasificar a los pacientes de modo que aquellos que experimentan el resultado obtengan riesgos predichos más altos que aquellos que no lo hacen, mientras que la calibración es la concordancia entre las probabilidades predichas y las frecuencias observadas; un modelo puede discriminar bien pero estar mal calibrado, por lo que ambos aspectos son importantes.
¿Por qué es importante la validación externa para los modelos de predicción clínica?: Los modelos a menudo tienen un rendimiento optimista en los datos utilizados para construirlos; las pruebas en poblaciones y entornos independientes revelan qué tan bien se generaliza un modelo y protegen contra la implementación de herramientas que fallan cuando la combinación de casos o la documentación difiere de los datos de desarrollo.