Что делает медицинские данные «большими данными»?

Медицинские данные часто описываются как большие данные, когда они велики по объему, поступают или изменяются быстро (скорость) и объединяют множество гетерогенных и неструктурированных типов (разнообразие) до такой степени, что обычные одномашинные инструменты не могут легко их хранить или анализировать.

Всегда ли больший набор медицинских данных более надежен?

Нет. Масштаб может улучшить способность выявлять закономерности, но если данные нерепрезентативны или низкого качества, большие наборы данных могут усиливать предвзятость. Надежные выводы зависят от качества данных, репрезентативности, валидации и интероперабельности, а не только от размера.

Технологии больших данных и их применение в здравоохранении

Большие данные в здравоохранении относятся к наборам данных, объем, скорость поступления и разнообразие которых превышают возможности традиционных инструментов управления данными, а также к распределенным технологиям, разработанным для их хранения и анализа. Приложения охватывают клинические, геномные, административные данные и данные с датчиков, где целью является извлечение закономерностей и прогнозов, которые не могут быть получены с помощью меньших или одноисточниковых наборов данных.

Найти тему в PaperMindСкороFind papers & topics

Tools & resources

Скачать слайды

Learn & explore

ВидеоСкоро

Definition

Технологии больших данных в здравоохранении — это распределенные методы хранения и анализа, разработанные для связанных со здоровьем наборов данных, характеризующихся большим объемом, скоростью поступления и разнообразием, применяемые к клиническим, геномным, административным данным и данным, генерируемым устройствами, для поддержки прогнозирования, обнаружения и управления.

Scope

Эта тема охватывает определяющие характеристики больших данных применительно к здравоохранению, технологические подходы к обработке данных в масштабе, а также репрезентативные приложения в здравоохранении, такие как предиктивная аналитика и управление группами высокого риска. Также отмечаются ограничения и риски этих подходов. Это справочный обзор методов и приложений, а не руководство по внедрению или клиническое руководство.

Key concepts

Объем, скорость и разнообразие («три V»)
Распределенное хранение и обработка
Гетерогенные и неструктурированные данные
Предиктивная аналитика
Машинное обучение в медицине
Геномные данные и данные с датчиков
Масштабируемость и интероперабельность
Обобщаемость и предвзятость в больших наборах данных

Mechanisms

Объем и гетерогенность медицинских данных возросли по мере накопления электронных записей, изображений, геномных данных, страховых требований и данных с носимых датчиков. Подходы к большим данным решают эту проблему путем распределения хранения и вычислений между множеством машин и путем совместного размещения структурированных и неструктурированных данных. После того как данные достигают необходимого масштаба, применяются аналитические методы, все чаще включающие машинное обучение, для выявления закономерностей и построения прогнозов, таких как идентификация пациентов высокого риска или с высокими затратами для целенаправленного управления. Ценность этих методов зависит от качества данных, их репрезентативности и интероперабельности; большие наборы данных сами по себе не гарантируют достоверных выводов и могут усиливать предвзятость, если исходные данные искажены.

Clinical relevance

Технологии больших данных лежат в основе прогностических инструментов, моделей риска и систем поддержки принятия решений, которые все чаще используются в оказании медицинской помощи и исследованиях. Понимание их характеристик и ограничений помогает пользователям судить, когда крупномасштабная аналитика приносит пользу, а когда масштаб маскирует предвзятость или низкое качество данных. Эта тема описывает технологии и приложения; она не дает указаний по индивидуальной диагностике или лечению.

History

По мере расширения рутинно собираемых медицинских данных в начале 2010-х годов концепция больших данных, первоначально сформулированная вокруг объема, скорости и разнообразия в информационных системах, была применена к здравоохранению. Обзоры описывали ее потенциал для клинического, геномного и операционного использования, а аналитика для управления группами высокого риска демонстрировала конкретные применения. Последующий рост машинного обучения в медицине основывался на этих больших наборах данных, одновременно обостряя внимание к предвзятости, валидации и обобщаемости.

Debates

Означает ли больший объем данных автоматически лучшую доказательность в здравоохранении?: Энтузиазм по поводу больших данных сдерживается опасениями, что масштаб может закреплять, а не преодолевать предвзятость, если исходные данные нерепрезентативны или низкого качества; обзоры подчеркивают, что объем должен сочетаться с качеством данных, валидацией и интероперабельностью для получения достоверных результатов.

Key figures

David W. Bates
Alvin Rajkomar
Isaac Kohane

Seminal works

raghupathi-2014
bates-2014

Frequently asked questions

Что делает медицинские данные «большими данными»?: Медицинские данные часто описываются как большие данные, когда они велики по объему, поступают или изменяются быстро (скорость) и объединяют множество гетерогенных и неструктурированных типов (разнообразие) до такой степени, что обычные одномашинные инструменты не могут легко их хранить или анализировать.
Всегда ли больший набор медицинских данных более надежен?: Нет. Масштаб может улучшить способность выявлять закономерности, но если данные нерепрезентативны или низкого качества, большие наборы данных могут усиливать предвзятость. Надежные выводы зависят от качества данных, репрезентативности, валидации и интероперабельности, а не только от размера.