Технологии больших данных и их применение в здравоохранении
Большие данные в здравоохранении относятся к наборам данных, объем, скорость поступления и разнообразие которых превышают возможности традиционных инструментов управления данными, а также к распределенным технологиям, разработанным для их хранения и анализа. Приложения охватывают клинические, геномные, административные данные и данные с датчиков, где целью является извлечение закономерностей и прогнозов, которые не могут быть получены с помощью меньших или одноисточниковых наборов данных.
Definition
Технологии больших данных в здравоохранении — это распределенные методы хранения и анализа, разработанные для связанных со здоровьем наборов данных, характеризующихся большим объемом, скоростью поступления и разнообразием, применяемые к клиническим, геномным, административным данным и данным, генерируемым устройствами, для поддержки прогнозирования, обнаружения и управления.
Scope
Эта тема охватывает определяющие характеристики больших данных применительно к здравоохранению, технологические подходы к обработке данных в масштабе, а также репрезентативные приложения в здравоохранении, такие как предиктивная аналитика и управление группами высокого риска. Также отмечаются ограничения и риски этих подходов. Это справочный обзор методов и приложений, а не руководство по внедрению или клиническое руководство.
Key concepts
- Объем, скорость и разнообразие («три V»)
- Распределенное хранение и обработка
- Гетерогенные и неструктурированные данные
- Предиктивная аналитика
- Машинное обучение в медицине
- Геномные данные и данные с датчиков
- Масштабируемость и интероперабельность
- Обобщаемость и предвзятость в больших наборах данных
Mechanisms
Объем и гетерогенность медицинских данных возросли по мере накопления электронных записей, изображений, геномных данных, страховых требований и данных с носимых датчиков. Подходы к большим данным решают эту проблему путем распределения хранения и вычислений между множеством машин и путем совместного размещения структурированных и неструктурированных данных. После того как данные достигают необходимого масштаба, применяются аналитические методы, все чаще включающие машинное обучение, для выявления закономерностей и построения прогнозов, таких как идентификация пациентов высокого риска или с высокими затратами для целенаправленного управления. Ценность этих методов зависит от качества данных, их репрезентативности и интероперабельности; большие наборы данных сами по себе не гарантируют достоверных выводов и могут усиливать предвзятость, если исходные данные искажены.
Clinical relevance
Технологии больших данных лежат в основе прогностических инструментов, моделей риска и систем поддержки принятия решений, которые все чаще используются в оказании медицинской помощи и исследованиях. Понимание их характеристик и ограничений помогает пользователям судить, когда крупномасштабная аналитика приносит пользу, а когда масштаб маскирует предвзятость или низкое качество данных. Эта тема описывает технологии и приложения; она не дает указаний по индивидуальной диагностике или лечению.
History
По мере расширения рутинно собираемых медицинских данных в начале 2010-х годов концепция больших данных, первоначально сформулированная вокруг объема, скорости и разнообразия в информационных системах, была применена к здравоохранению. Обзоры описывали ее потенциал для клинического, геномного и операционного использования, а аналитика для управления группами высокого риска демонстрировала конкретные применения. Последующий рост машинного обучения в медицине основывался на этих больших наборах данных, одновременно обостряя внимание к предвзятости, валидации и обобщаемости.
Debates
- Означает ли больший объем данных автоматически лучшую доказательность в здравоохранении?
- Энтузиазм по поводу больших данных сдерживается опасениями, что масштаб может закреплять, а не преодолевать предвзятость, если исходные данные нерепрезентативны или низкого качества; обзоры подчеркивают, что объем должен сочетаться с качеством данных, валидацией и интероперабельностью для получения достоверных результатов.
Key figures
- David W. Bates
- Alvin Rajkomar
- Isaac Kohane
Related topics
Seminal works
- raghupathi-2014
- bates-2014
Frequently asked questions
- Что делает медицинские данные «большими данными»?
- Медицинские данные часто описываются как большие данные, когда они велики по объему, поступают или изменяются быстро (скорость) и объединяют множество гетерогенных и неструктурированных типов (разнообразие) до такой степени, что обычные одномашинные инструменты не могут легко их хранить или анализировать.
- Всегда ли больший набор медицинских данных более надежен?
- Нет. Масштаб может улучшить способность выявлять закономерности, но если данные нерепрезентативны или низкого качества, большие наборы данных могут усиливать предвзятость. Надежные выводы зависят от качества данных, репрезентативности, валидации и интероперабельности, а не только от размера.
Methods for this concept
- Hospital Readmission Prediction Model
- Real-World Evidence Studies
- Machine learning-assisted copy number variation analysis
- Digital Health Acceptance Scale
- Data Protection and Privacy in Research
- Data Warehousing
- Machine learning-assisted microbiome diversity analysis
- Machine learning-assisted pathway enrichment analysis
Related concepts
- Управление и анализ данных здравоохранения
- Управление и аналитика данных здравоохранения
- Управление данными здравоохранения и качество данных
- Информационные системы в медицинских организациях
- Электронные медицинские карты и интероперабельность
- Машинное обучение и предиктивная аналитика в клинической практике