データウェアハウジングとOLAP
データウェアハウジングは、分析のために多くのソースからのデータをクエリ最適化されたストアに統合し、オンライン分析処理(OLAP)は、アナリストがそのデータを対話的に探索できるようにする多次元モデルと操作を提供します。
Definition
データウェアハウスは、分析のために複数の運用ソースから抽出された統合された履歴データの、統合され、クエリが最適化されたリポジトリです。OLAPは、そのようなデータを多次元モデルに整理し、高速な集計クエリと対話的な探索をサポートするテクノロジーです。
Scope
このトピックでは、データ管理の分析側面について説明します。運用システムとは別の、統合された主題指向のストアとしてのデータウェアハウス、それを構築する抽出-変換-ロード(ETL)パイプライン、ファクトとディメンションのスターおよびスノーフレークスキーマによるディメンションモデリング、多次元データキューブとOLAP操作(ロールアップ、ドリルダウン、スライス、ダイス、ピボット)、および分析(OLAP)ワークロードとトランザクション(OLTP)ワークロードの対比です。トランザクションの並行性制御と一般的なNoSQLストアは隣接するトピックであるため、ここでは除外します。
Core questions
- データウェアハウスは運用(OLTP)データベースとどのように異なりますか?
- ディメンションモデリングとは何ですか?また、スターおよびスノーフレークスキーマはファクトとディメンションをどのように整理しますか?
- データキューブはグループ化をどのように一般化し、多次元分析をサポートしますか?
- OLAP操作のロールアップ、ドリルダウン、スライス、ダイス、ピボットは何をしますか?
- ETLプロセスはウェアハウスデータの統合とロードにどのように使用されますか?
Key concepts
- データウェアハウス
- 抽出-変換-ロード (ETL)
- スターおよびスノーフレークスキーマ
- ファクトテーブルとディメンションテーブル
- データキューブ
- ロールアップ、ドリルダウン、スライス、ダイス、ピボット
- マテリアライズドビュー
- OLAP対OLTP
Key theories
- ディメンションモデリング
- ウェアハウスは、測定値の中心となるファクトテーブルが周囲のディメンションテーブル(時間、製品、場所)を参照するスターおよびスノーフレークスキーマで一般的にモデル化され、アナリストが実行する集計的で読み取り中心のクエリに最適化されています。
- データキューブとOLAP操作
- データキューブ演算子は、グループ化を一般化して、ディメンションのすべての組み合わせにわたる集計を計算し、対話的な多次元分析のためのロールアップ、ドリルダウン、スライス、ダイス、ピボットをサポートします。
- OLAPとOLTPの分離
- 分析ワークロードは大量の履歴データをスキャンして集計しますが、これは短いトランザクション更新とは根本的に異なります。このため、運用システムからのETLによって構築される、分離された統合された読み取り最適化されたウェアハウスが必要とされます。
Clinical relevance
データウェアハウジングとOLAPはビジネスインテリジェンスの基盤です。組織は運用データをウェアハウスに統合し、OLAPを使用して時間、地域、製品などのディメンションにわたる販売、財務、運用を分析するため、これらのテクノロジーはデータ駆動型意思決定の中心となります。
History
データウェアハウジングは、組織が分析クエリを運用データベースから分離した1990年代初頭に登場しました。キンボールのディメンションモデリングアプローチとインモンのエンタープライズウェアハウスアプローチがこの分野を形成しました。データキューブ演算子(Gray et al., 1997)は多次元集計を形式化し、ChaudhuriとDayalの1997年の概要は、現代の分析プラットフォームの基盤となるウェアハウジングとOLAPテクノロジーを統合しました。
Key figures
- Surajit Chaudhuri
- Umeshwar Dayal
- Jim Gray
- Ralph Kimball
Related topics
Seminal works
- chaudhuri1997
- gray1997
- kimball2013
Frequently asked questions
- OLAPとOLTPの違いは何ですか?
- OLTP(オンライン・トランザクション処理)は、注文の発注など、多くの短い読み書きトランザクションを処理し、一貫性と高速な更新に重点を置いています。OLAP(オンライン分析処理)は、分析のために大量の履歴データを集計する複雑な読み取り中心のクエリを処理します。ウェアハウスはOLAP用に設計されており、それらにデータを提供するOLTPシステムとは分離されています。
- 完全に正規化された設計ではなく、スター型スキーマを使用する理由は何ですか?
- 分析クエリは通常、大きなファクトテーブルを複数のディメンションテーブルに結合し、集計します。スター型スキーマは、結合を最小限に抑え、これらの集計クエリを高速かつ直感的にするために、意図的にディメンションを非正規化します。正規化によって除去される冗長性は、ウェアハウスがまとめてロードされ、更新されるよりもはるかに多くクエリされるため、ここでは許容されます。