Qu'est-ce qui fait des données de santé du « Big Data » ?

Les données de santé sont souvent qualifiées de Big Data lorsqu'elles sont volumineuses, arrivent ou changent rapidement (vélocité), et combinent de nombreux types hétérogènes et non structurés (variété), au point que les outils conventionnels basés sur une seule machine ne peuvent pas facilement les stocker ou les analyser.

Un ensemble de données de santé plus grand est-il toujours plus fiable ?

Non. L'échelle peut améliorer la capacité à détecter des modèles, mais si les données sont non représentatives ou de mauvaise qualité, les grands ensembles de données peuvent renforcer les biais. Des conclusions fiables dépendent de la qualité des données, de leur représentativité, de leur validation et de leur interopérabilité, et non de la taille seule.

Technologies du Big Data et applications en santé

Le Big Data en santé désigne des ensembles de données dont le volume, la vélocité et la variété dépassent la capacité des outils conventionnels de gestion des données, ainsi que les technologies distribuées développées pour les stocker et les analyser. Les applications couvrent les données cliniques, génomiques, administratives et issues de capteurs, l'objectif étant d'en extraire des modèles et des prédictions que des ensembles de données plus petits ou provenant d'une source unique ne peuvent pas prendre en charge.

Trouver un sujet avec PaperMindBientôtFind papers & topics

Tools & resources

Télécharger les diapositives

Learn & explore

VidéoBientôt

Definition

Les technologies du Big Data en santé sont les méthodes de stockage distribué et d'analyse conçues pour les ensembles de données liés à la santé, caractérisés par un volume, une vélocité et une variété élevés, appliquées aux données cliniques, génomiques, administratives et générées par des dispositifs, afin de soutenir la prédiction, la découverte et la gestion.

Scope

Ce sujet couvre les caractéristiques définissant le Big Data telles qu'elles s'appliquent à la santé, les approches technologiques pour gérer les données à grande échelle, et des applications représentatives en santé telles que l'analyse prédictive et la gestion des populations à haut risque. Il aborde également les limites et les risques de ces approches. Il s'agit d'un aperçu de référence des méthodes et applications, et non d'un guide d'implémentation ou de pratique clinique.

Key concepts

Volume, vélocité et variété (les « trois V »)
Stockage et traitement distribués
Données hétérogènes et non structurées
Analyse prédictive
Apprentissage automatique en médecine
Données génomiques et issues de capteurs
Évolutivité et interopérabilité
Généralisabilité et biais dans les grands ensembles de données

Mechanisms

Les données de santé ont augmenté en échelle et en hétérogénéité à mesure que les dossiers électroniques, l'imagerie, la génomique, les demandes de remboursement et les capteurs portables s'accumulent. Les approches du Big Data y répondent en distribuant le stockage et le calcul sur de nombreuses machines et en intégrant des données structurées et non structurées. Une fois les données à l'échelle, des méthodes analytiques, incluant de plus en plus l'apprentissage automatique, sont appliquées pour détecter des modèles et construire des prédictions, telles que l'identification de patients à haut risque ou à coût élevé pour une gestion ciblée. La valeur de ces méthodes dépend de la qualité des données, de leur représentativité et de leur interopérabilité ; les grands ensembles de données ne garantissent pas à eux seuls des conclusions valides et peuvent amplifier les biais si les données sous-jacentes sont faussées.

Clinical relevance

Les technologies du Big Data sous-tendent les outils prédictifs, les modèles de risque et les systèmes d'aide à la décision qui sont de plus en plus utilisés dans la prestation de soins de santé et la recherche. Comprendre leurs caractéristiques et leurs limites aide les utilisateurs à juger quand les analyses à grande échelle apportent de la valeur et quand l'échelle masque des biais ou une mauvaise qualité des données. Ce sujet décrit les technologies et les applications ; il ne donne pas de directives pour le diagnostic ou le traitement individuel.

History

À mesure que les données de santé collectées de manière routinière se sont développées au début des années 2010, le concept de Big Data, initialement défini autour du volume, de la vélocité et de la variété dans les systèmes d'information, a été appliqué aux soins de santé. Des revues ont mis en évidence ses promesses pour l'utilisation clinique, génomique et opérationnelle, et les analyses pour la gestion des populations à haut risque ont démontré des applications concrètes. L'essor ultérieur de l'apprentissage automatique en médecine s'est appuyé sur ces grands ensembles de données tout en accentuant l'attention portée aux biais, à la validation et à la généralisabilité.

Debates

Plus de données signifie-t-il automatiquement de meilleures preuves en santé ?: L'enthousiasme pour le Big Data est tempéré par la crainte que l'échelle puisse enraciner plutôt que surmonter les biais lorsque les données sous-jacentes sont non représentatives ou de mauvaise qualité ; les revues soulignent que le volume doit être associé à la qualité des données, à la validation et à l'interopérabilité pour produire des résultats fiables.

Key figures

David W. Bates
Alvin Rajkomar
Isaac Kohane

Seminal works

raghupathi-2014
bates-2014

Frequently asked questions

Qu'est-ce qui fait des données de santé du « Big Data » ?: Les données de santé sont souvent qualifiées de Big Data lorsqu'elles sont volumineuses, arrivent ou changent rapidement (vélocité), et combinent de nombreux types hétérogènes et non structurés (variété), au point que les outils conventionnels basés sur une seule machine ne peuvent pas facilement les stocker ou les analyser.
Un ensemble de données de santé plus grand est-il toujours plus fiable ?: Non. L'échelle peut améliorer la capacité à détecter des modèles, mais si les données sont non représentatives ou de mauvaise qualité, les grands ensembles de données peuvent renforcer les biais. Des conclusions fiables dépendent de la qualité des données, de leur représentativité, de leur validation et de leur interopérabilité, et non de la taille seule.