Машинное обучение и предиктивная аналитика в клинической практике
Машинное обучение и предиктивная аналитика используют закономерности в клинических данных и данных о состоянии здоровья для оценки вероятности исходов, таких как диагнозы, ухудшение состояния, повторная госпитализация или ответ на лечение, для отдельных пациентов. Эта тема охватывает вопросы разработки, валидации и представления клинических прогностических моделей, а также методологические стандарты, которые отличают надежные модели от вводящих в заблуждение.
Definition
Клиническое машинное обучение — это использование алгоритмов, которые изучают статистические взаимосвязи из данных пациентов для прогнозирования клинически значимых исходов; клиническая прогностическая модель объединяет несколько предикторов для оценки вероятности диагноза (диагностическая) или будущего события (прогностическая) для индивидуума.
Scope
Статья охватывает обучение с учителем для диагностики и прогнозирования, источники данных и признаки, используемые в клинических условиях, центральные концепции валидации — дискриминацию, калибровку и внешнюю валидацию, риски систематической ошибки и переобучения, а также стандарты отчетности и оценки, такие как TRIPOD и PROBAST. Она рассматривает клиническое машинное обучение как методологическую тему, описывая, как создаются и оцениваются прогностические инструменты, а не предлагая клинические рекомендации.
Key concepts
- Обучение с учителем (диагностика и прогнозирование)
- Дискриминация, калибровка и клиническая полезность
- Внутренняя и внешняя валидация
- Переобучение и оптимизм
- Сдвиг набора данных и обобщаемость
- Алгоритмическая систематическая ошибка и справедливость
- Стандарты отчетности (TRIPOD) и оценка риска систематической ошибки (PROBAST)
- Глубокое обучение и извлечение признаков
Mechanisms
Клиническая прогностическая модель подгоняется на размеченных данных, изучая, как предикторы связаны с исходом, а затем оценивается по дискриминации (насколько хорошо она разделяет тех, кто испытывает исход, и тех, кто его не испытывает) и калибровке (насколько хорошо предсказанные вероятности соответствуют наблюдаемым частотам). Поскольку модели, как правило, демонстрируют оптимистичные результаты на данных, на которых они были обучены, внутренняя и особенно внешняя валидация на новых популяциях имеет важное значение, а развертывание может быть подорвано сдвигом набора данных (dataset shift), когда целевая среда отличается от среды разработки (Rajkomar, 2019). Глубокое обучение расширяет эти идеи, изучая признаки непосредственно из необработанных входных данных, таких как изображения, сигналы или текст, что может улучшить производительность в задачах восприятия, усложняя при этом интерпретируемость (Esteva, 2019).
Clinical relevance
Прогностические модели все чаще используются для формирования оценок риска, ранних предупреждений и инструментов сортировки, встроенных в клинические системы, поэтому их точность, калибровка и справедливость напрямую влияют на качество рекомендаций, получаемых клиницистами. Эта статья описывает, как такие модели разрабатываются и оцениваются; результаты моделей представляют собой вероятностные оценки, требующие клинической интерпретации и надзора, и текст не является основанием для какого-либо индивидуального диагностического или лечебного решения.
Evidence & guidelines
Методологический консенсус подчеркивает прозрачную разработку и строгую валидацию. Заявление TRIPOD устанавливает стандарты отчетности для исследований прогностических моделей, чтобы можно было оценивать методы и производительность (Collins, 2015), а PROBAST предоставляет структурированный инструмент для оценки риска систематической ошибки и применимости в таких исследованиях (Wolff, 2019). Обзоры машинного обучения в медицине подчеркивают внешнюю валидацию, калибровку, внимание к систематической ошибке и разрыв между ретроспективной производительностью и проспективной клинической пользой (Rajkomar, 2019; Esteva, 2019).
History
Клиническое прогнозирование имеет давние корни в оценках риска, основанных на регрессии, но в 2010-х годах наблюдался быстрый рост машинного обучения и глубокого обучения, подпитываемый электронными медицинскими картами, изображениями и более крупными наборами данных. Наряду с этим возросла обеспокоенность по поводу воспроизводимости, завышенной производительности и систематической ошибки, что привело к появлению рамок отчетности и оценки (TRIPOD, PROBAST), предназначенных для обеспечения соответствия исследований моделей последовательным методологическим стандартам.
Debates
- Почему многие модели работают хуже на практике, чем в исследованиях по разработке?
- Неадекватная внешняя валидация, сдвиг набора данных между средами разработки и развертывания, а также оптимистичная отчетность означают, что высокая ретроспективная производительность часто не приводит к проспективной клинической пользе, что мотивирует к более строгим стандартам валидации и отчетности.
- Как следует бороться с алгоритмической систематической ошибкой и обеспечивать справедливость?
- Модели, обученные на исторических данных, могут кодировать и усиливать неравенство, что вызывает дебаты о том, как измерять справедливость, когда различия в производительности между группами приемлемы и как отслеживать развернутые модели на предмет систематической ошибки с течением времени.
Key figures
- Alvin Rajkomar
- Gary S. Collins
- Karel G. M. Moons
- Isaac Kohane
Related topics
Seminal works
- rajkomar-2019
- collins-2015
- wolff-2019
Frequently asked questions
- В чем разница между дискриминацией и калибровкой?
- Дискриминация — это способность модели ранжировать пациентов таким образом, чтобы те, у кого наблюдается исход, получали более высокие прогнозируемые риски, чем те, у кого его нет, в то время как калибровка — это соответствие между прогнозируемыми вероятностями и наблюдаемыми частотами; модель может хорошо дискриминировать, но быть плохо откалиброванной, поэтому важны оба аспекта.
- Почему внешняя валидация важна для клинических прогностических моделей?
- Модели часто демонстрируют оптимистичные результаты на данных, используемых для их построения; тестирование на независимых популяциях и в различных условиях показывает, насколько хорошо модель обобщается, и защищает от развертывания инструментов, которые дают сбой, когда состав случаев или документация отличаются от данных разработки.