Entreposage de données et OLAP
L'entreposage de données consolide les données provenant de multiples sources dans un magasin optimisé pour les requêtes d'analyse, et le traitement analytique en ligne (OLAP) fournit le modèle multidimensionnel et les opérations qui permettent aux analystes d'explorer ces données de manière interactive.
Definition
Un entrepôt de données est un référentiel consolidé, optimisé pour les requêtes, de données historiques intégrées provenant de multiples sources opérationnelles pour l'analyse ; l'OLAP est la technologie qui organise ces données en un modèle multidimensionnel et prend en charge les requêtes agrégées rapides et l'exploration interactive.
Scope
Ce sujet couvre l'aspect analytique de la gestion des données : l'entrepôt de données en tant que magasin intégré, orienté sujet, distinct des systèmes opérationnels ; le pipeline d'extraction, transformation et chargement (ETL) qui l'alimente ; la modélisation dimensionnelle avec les schémas en étoile et en flocon de faits et de dimensions ; le cube de données multidimensionnel et les opérations OLAP (agrégation, exploration, découpage, segmentation, pivotement) ; et le contraste entre les charges de travail analytiques (OLAP) et transactionnelles (OLTP). Il exclut le contrôle de concurrence transactionnel et les magasins NoSQL généraux, qui sont des sujets connexes.
Core questions
- En quoi un entrepôt de données diffère-t-il d'une base de données opérationnelle (OLTP) ?
- Qu'est-ce que la modélisation dimensionnelle, et comment les schémas en étoile et en flocon organisent-ils les faits et les dimensions ?
- Comment le cube de données généralise-t-il le regroupement (group-by) et prend-il en charge l'analyse multidimensionnelle ?
- Que font les opérations OLAP d'agrégation (roll-up), d'exploration (drill-down), de découpage (slice), de segmentation (dice) et de pivotement (pivot) ?
- Comment le processus ETL est-il utilisé pour intégrer et charger les données d'un entrepôt ?
Key concepts
- entrepôt de données
- extraction-transformation-chargement (ETL)
- schémas en étoile et en flocon
- tables de faits et de dimensions
- cube de données
- agrégation, exploration, découpage, segmentation, pivotement
- vues matérialisées
- OLAP versus OLTP
Key theories
- Modélisation dimensionnelle
- Les entrepôts sont généralement modélisés avec des schémas en étoile et en flocon, dans lesquels une table de faits centrale de mesures référence les tables de dimensions environnantes (temps, produit, localisation), optimisant ainsi les requêtes agrégées et à forte lecture exécutées par les analystes.
- Le cube de données et les opérations OLAP
- L'opérateur de cube de données généralise le regroupement (group-by) pour calculer des agrégats sur toutes les combinaisons de dimensions, prenant en charge l'agrégation (roll-up), l'exploration (drill-down), le découpage (slice), la segmentation (dice) et le pivotement (pivot) pour une analyse multidimensionnelle interactive.
- Séparation de l'OLAP et de l'OLTP
- Les charges de travail analytiques scannent et agrègent de grands volumes de données historiques, ce qui diffère fondamentalement des courtes mises à jour transactionnelles, motivant un entrepôt séparé, intégré et optimisé pour la lecture, alimenté par ETL à partir de systèmes opérationnels.
Clinical relevance
L'entreposage de données et l'OLAP sont les fondements de l'intelligence d'affaires : les organisations consolident les données opérationnelles dans des entrepôts et utilisent l'OLAP pour analyser les ventes, les finances et les opérations selon des dimensions telles que le temps, la région et le produit, faisant de ces technologies un élément central de la prise de décision basée sur les données.
History
L'entreposage de données est apparu au début des années 1990, lorsque les organisations ont séparé les requêtes analytiques des bases de données opérationnelles ; l'approche de modélisation dimensionnelle de Kimball et l'approche d'entrepôt d'entreprise d'Inmon ont façonné le domaine. L'opérateur de cube de données (Gray et al., 1997) a formalisé l'agrégation multidimensionnelle, et l'aperçu de Chaudhuri et Dayal en 1997 a consolidé la technologie d'entreposage et d'OLAP qui sous-tend les plateformes d'analyse modernes.
Key figures
- Surajit Chaudhuri
- Umeshwar Dayal
- Jim Gray
- Ralph Kimball
Related topics
Seminal works
- chaudhuri1997
- gray1997
- kimball2013
Frequently asked questions
- Quelle est la différence entre OLAP et OLTP ?
- L'OLTP (traitement transactionnel en ligne) gère de nombreuses transactions courtes de lecture-écriture, telles que la passation d'une commande, en mettant l'accent sur la cohérence et les mises à jour rapides. L'OLAP (traitement analytique en ligne) gère des requêtes complexes, principalement de lecture, qui agrègent de grands volumes de données historiques pour l'analyse. Les entrepôts sont conçus pour l'OLAP et sont maintenus séparés des systèmes OLTP qui les alimentent.
- Pourquoi utiliser un schéma en étoile plutôt qu'une conception entièrement normalisée ?
- Les requêtes analytiques joignent généralement une grande table de faits à plusieurs tables de dimensions et agrègent les données. Un schéma en étoile dénormalise délibérément les dimensions pour minimiser les jointures et rendre ces requêtes agrégées rapides et intuitives. La redondance que la normalisation éliminerait est acceptable ici car l'entrepôt est chargé en masse et interrogé beaucoup plus souvent qu'il n'est mis à jour.