Technologies du Big Data et applications en santé
Le Big Data en santé désigne des ensembles de données dont le volume, la vélocité et la variété dépassent la capacité des outils conventionnels de gestion des données, ainsi que les technologies distribuées développées pour les stocker et les analyser. Les applications couvrent les données cliniques, génomiques, administratives et issues de capteurs, l'objectif étant d'en extraire des modèles et des prédictions que des ensembles de données plus petits ou provenant d'une source unique ne peuvent pas prendre en charge.
Definition
Les technologies du Big Data en santé sont les méthodes de stockage distribué et d'analyse conçues pour les ensembles de données liés à la santé, caractérisés par un volume, une vélocité et une variété élevés, appliquées aux données cliniques, génomiques, administratives et générées par des dispositifs, afin de soutenir la prédiction, la découverte et la gestion.
Scope
Ce sujet couvre les caractéristiques définissant le Big Data telles qu'elles s'appliquent à la santé, les approches technologiques pour gérer les données à grande échelle, et des applications représentatives en santé telles que l'analyse prédictive et la gestion des populations à haut risque. Il aborde également les limites et les risques de ces approches. Il s'agit d'un aperçu de référence des méthodes et applications, et non d'un guide d'implémentation ou de pratique clinique.
Key concepts
- Volume, vélocité et variété (les « trois V »)
- Stockage et traitement distribués
- Données hétérogènes et non structurées
- Analyse prédictive
- Apprentissage automatique en médecine
- Données génomiques et issues de capteurs
- Évolutivité et interopérabilité
- Généralisabilité et biais dans les grands ensembles de données
Mechanisms
Les données de santé ont augmenté en échelle et en hétérogénéité à mesure que les dossiers électroniques, l'imagerie, la génomique, les demandes de remboursement et les capteurs portables s'accumulent. Les approches du Big Data y répondent en distribuant le stockage et le calcul sur de nombreuses machines et en intégrant des données structurées et non structurées. Une fois les données à l'échelle, des méthodes analytiques, incluant de plus en plus l'apprentissage automatique, sont appliquées pour détecter des modèles et construire des prédictions, telles que l'identification de patients à haut risque ou à coût élevé pour une gestion ciblée. La valeur de ces méthodes dépend de la qualité des données, de leur représentativité et de leur interopérabilité ; les grands ensembles de données ne garantissent pas à eux seuls des conclusions valides et peuvent amplifier les biais si les données sous-jacentes sont faussées.
Clinical relevance
Les technologies du Big Data sous-tendent les outils prédictifs, les modèles de risque et les systèmes d'aide à la décision qui sont de plus en plus utilisés dans la prestation de soins de santé et la recherche. Comprendre leurs caractéristiques et leurs limites aide les utilisateurs à juger quand les analyses à grande échelle apportent de la valeur et quand l'échelle masque des biais ou une mauvaise qualité des données. Ce sujet décrit les technologies et les applications ; il ne donne pas de directives pour le diagnostic ou le traitement individuel.
History
À mesure que les données de santé collectées de manière routinière se sont développées au début des années 2010, le concept de Big Data, initialement défini autour du volume, de la vélocité et de la variété dans les systèmes d'information, a été appliqué aux soins de santé. Des revues ont mis en évidence ses promesses pour l'utilisation clinique, génomique et opérationnelle, et les analyses pour la gestion des populations à haut risque ont démontré des applications concrètes. L'essor ultérieur de l'apprentissage automatique en médecine s'est appuyé sur ces grands ensembles de données tout en accentuant l'attention portée aux biais, à la validation et à la généralisabilité.
Debates
- Plus de données signifie-t-il automatiquement de meilleures preuves en santé ?
- L'enthousiasme pour le Big Data est tempéré par la crainte que l'échelle puisse enraciner plutôt que surmonter les biais lorsque les données sous-jacentes sont non représentatives ou de mauvaise qualité ; les revues soulignent que le volume doit être associé à la qualité des données, à la validation et à l'interopérabilité pour produire des résultats fiables.
Key figures
- David W. Bates
- Alvin Rajkomar
- Isaac Kohane
Related topics
Seminal works
- raghupathi-2014
- bates-2014
Frequently asked questions
- Qu'est-ce qui fait des données de santé du « Big Data » ?
- Les données de santé sont souvent qualifiées de Big Data lorsqu'elles sont volumineuses, arrivent ou changent rapidement (vélocité), et combinent de nombreux types hétérogènes et non structurés (variété), au point que les outils conventionnels basés sur une seule machine ne peuvent pas facilement les stocker ou les analyser.
- Un ensemble de données de santé plus grand est-il toujours plus fiable ?
- Non. L'échelle peut améliorer la capacité à détecter des modèles, mais si les données sont non représentatives ou de mauvaise qualité, les grands ensembles de données peuvent renforcer les biais. Des conclusions fiables dépendent de la qualité des données, de leur représentativité, de leur validation et de leur interopérabilité, et non de la taille seule.
Methods for this concept
- Hospital Readmission Prediction Model
- Real-World Evidence Studies
- Machine learning-assisted copy number variation analysis
- Digital Health Acceptance Scale
- Data Protection and Privacy in Research
- Data Warehousing
- Machine learning-assisted microbiome diversity analysis
- Machine learning-assisted pathway enrichment analysis
Related concepts
- Gestion et analyse des données de santé
- Gestion et analyse des données de santé
- Gouvernance des données de santé et qualité des données
- Systèmes d'information dans les organisations de soins de santé
- Dossiers de santé électroniques et interopérabilité
- Apprentissage automatique et analyse prédictive dans les soins cliniques