ScholarGate
Assistent

Data Warehousing und OLAP

Data Warehousing konsolidiert Daten aus vielen Quellen in einem abfrageoptimierten Speicher zur Analyse, und Online Analytical Processing (OLAP) bietet das multidimensionale Modell und die Operationen, die Analysten eine interaktive Erkundung dieser Daten ermöglichen.

Thema finden mit PaperMindDemnächstFind papers & topics
Tools & resources
Folien herunterladen
Learn & explore
VideoDemnächst

Definition

Ein Data Warehouse ist ein konsolidiertes, abfrageoptimiertes Repository integrierter historischer Daten, die aus mehreren operativen Quellen zur Analyse stammen; OLAP ist die Technologie, die solche Daten in einem multidimensionalen Modell organisiert und schnelle Aggregatabfragen sowie interaktive Exploration unterstützt.

Scope

Dieses Thema behandelt die analytische Seite des Datenmanagements: das Data Warehouse als integrierten, themenorientierten Speicher, der von operativen Systemen getrennt ist; die Extract-Transform-Load (ETL)-Pipeline, die es befüllt; die dimensionale Modellierung mit Stern- und Schneeflockenschemata von Fakten und Dimensionen; den multidimensionalen Datenwürfel und OLAP-Operationen (Roll-up, Drill-down, Slice, Dice, Pivot); und den Kontrast zwischen analytischen (OLAP) und transaktionalen (OLTP) Workloads. Es schließt transaktionale Parallelitätskontrolle und allgemeine NoSQL-Speicher aus, die angrenzende Themen sind.

Core questions

  • Wie unterscheidet sich ein Data Warehouse von einer operativen (OLTP-)Datenbank?
  • Was ist dimensionale Modellierung, und wie organisieren Stern- und Schneeflockenschemata Fakten und Dimensionen?
  • Wie verallgemeinert der Datenwürfel Group-by und unterstützt die multidimensionale Analyse?
  • Was bewirken die OLAP-Operationen Roll-up, Drill-down, Slice, Dice und Pivot?
  • Wie wird der ETL-Prozess zur Integration und zum Laden von Warehouse-Daten verwendet?

Key concepts

  • Data Warehouse
  • Extract-Transform-Load (ETL)
  • Stern- und Schneeflockenschemata
  • Fakten- und Dimensionstabellen
  • Datenwürfel
  • Roll-up, Drill-down, Slice, Dice, Pivot
  • materialisierte Sichten
  • OLAP versus OLTP

Key theories

Dimensionale Modellierung
Warehouses werden üblicherweise mit Stern- und Schneeflockenschemata modelliert, bei denen eine zentrale Faktentabelle von Messungen auf umgebende Dimensionstabellen (Zeit, Produkt, Ort) verweist, um die aggregierten, leselastigen Abfragen, die Analysten ausführen, zu optimieren.
Der Datenwürfel und OLAP-Operationen
Der Datenwürfel-Operator verallgemeinert Group-by, um Aggregate über alle Kombinationen von Dimensionen zu berechnen, und unterstützt Roll-up, Drill-down, Slice, Dice und Pivot für die interaktive multidimensionale Analyse.
Trennung von OLAP und OLTP
Analytische Workloads scannen und aggregieren große Mengen historischer Daten, was sich grundlegend von kurzen transaktionalen Updates unterscheidet, was ein separates, integriertes, leseoptimiertes Warehouse motiviert, das durch ETL aus operativen Systemen befüllt wird.

Clinical relevance

Data Warehousing und OLAP bilden die Grundlage der Business Intelligence: Organisationen konsolidieren operative Daten in Warehouses und nutzen OLAP, um Verkäufe, Finanzen und Operationen über Dimensionen wie Zeit, Region und Produkt hinweg zu analysieren, wodurch diese Technologien für datengesteuerte Entscheidungsfindung zentral werden.

History

Data Warehousing entstand in den frühen 1990er Jahren, als Organisationen analytische Abfragen von operativen Datenbanken trennten; Kimballs dimensionaler Modellierungsansatz und Inmons Enterprise-Warehouse-Ansatz prägten das Feld. Der Datenwürfel-Operator (Gray et al., 1997) formalisierte die multidimensionale Aggregation, und Chaudhuri und Dayals Überblick von 1997 konsolidierte die Warehouse- und OLAP-Technologie, die modernen Analyseplattformen zugrunde liegt.

Key figures

  • Surajit Chaudhuri
  • Umeshwar Dayal
  • Jim Gray
  • Ralph Kimball

Related topics

Seminal works

  • chaudhuri1997
  • gray1997
  • kimball2013

Frequently asked questions

Was ist der Unterschied zwischen OLAP und OLTP?
OLTP (Online Transaction Processing) verarbeitet viele kurze Lese-Schreib-Transaktionen, wie z. B. das Aufgeben einer Bestellung, wobei der Schwerpunkt auf Konsistenz und schnellen Updates liegt. OLAP (Online Analytical Processing) verarbeitet komplexe, hauptsächlich lesende Abfragen, die große Mengen historischer Daten zur Analyse aggregieren. Warehouses sind für OLAP konzipiert und werden von den OLTP-Systemen, die sie speisen, getrennt gehalten.
Warum ein Sternschema anstelle eines vollständig normalisierten Designs verwenden?
Analytische Abfragen verknüpfen typischerweise eine große Faktentabelle mit mehreren Dimensionstabellen und aggregieren. Ein Sternschema denormalisiert Dimensionen bewusst, um Joins zu minimieren und diese Aggregatabfragen schnell und intuitiv zu gestalten. Die Redundanz, die die Normalisierung beseitigen würde, ist hier akzeptabel, da das Warehouse in großen Mengen geladen und weitaus häufiger abgefragt als aktualisiert wird.

Methods for this concept

Related concepts