数据仓库和联机分析处理 (OLAP)
数据仓库将来自多个来源的数据整合到一个针对查询优化的存储中进行分析,而联机分析处理 (OLAP) 则提供多维模型和操作,使分析师能够交互式地探索这些数据。
用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
Learn & explore
视频即将推出
Definition
数据仓库是一个整合的、针对查询优化的存储库,其中包含从多个操作源中提取的集成历史数据,用于分析;OLAP 是一种技术,它将此类数据组织成多维模型,并支持快速聚合查询和交互式探索。
Scope
本主题涵盖数据管理的分析方面:作为独立于操作系统的集成式、面向主题的存储的数据仓库;用于填充数据仓库的抽取-转换-加载 (ETL) 管道;使用星型和雪花型模式对事实和维度进行维度建模;多维数据立方体和 OLAP 操作(上卷、下钻、切片、切块、旋转);以及分析型 (OLAP) 和事务型 (OLTP) 工作负载之间的对比。它不包括事务并发控制和通用 NoSQL 存储,这些是相关主题。
Core questions
- 数据仓库与操作型 (OLTP) 数据库有何不同?
- 什么是维度建模?星型和雪花型模式如何组织事实和维度?
- 数据立方体如何概括分组并支持多维分析?
- OLAP 操作中的上卷、下钻、切片、切块和旋转分别有什么作用?
- ETL 过程如何用于集成和加载仓库数据?
Key concepts
- 数据仓库
- 抽取-转换-加载 (ETL)
- 星型和雪花型模式
- 事实表和维度表
- 数据立方体
- 上卷、下钻、切片、切块、旋转
- 物化视图
- OLAP 与 OLTP
Key theories
- 维度建模
- 数据仓库通常使用星型和雪花型模式进行建模,其中包含一个中心事实表(用于度量),该事实表引用周围的维度表(时间、产品、位置),从而优化分析师运行的聚合型、读密集型查询。
- 数据立方体和 OLAP 操作
- 数据立方体运算符将分组操作推广到计算所有维度组合上的聚合,支持上卷、下钻、切片、切块和旋转,以实现交互式多维分析。
- OLAP 与 OLTP 的分离
- 分析工作负载扫描和聚合大量历史数据,这与短事务更新根本不同,因此需要一个独立的、集成的、读优化的数据仓库,并通过 ETL 从操作系统填充。
Clinical relevance
数据仓库和 OLAP 是商业智能的基础:组织将操作数据整合到数据仓库中,并使用 OLAP 分析跨时间、区域和产品等维度的销售、财务和运营情况,使这些技术成为数据驱动决策的核心。
History
数据仓库在 20 世纪 90 年代初兴起,当时组织将分析查询与操作数据库分离;Kimball 的维度建模方法和 Inmon 的企业仓库方法塑造了该领域。数据立方体运算符(Gray 等人,1997 年)使多维聚合形式化,而 Chaudhuri 和 Dayal 在 1997 年的概述整合了数据仓库和 OLAP 技术,这些技术是现代分析平台的基础。
Key figures
- Surajit Chaudhuri
- Umeshwar Dayal
- Jim Gray
- Ralph Kimball
Related topics
Seminal works
- chaudhuri1997
- gray1997
- kimball2013
Frequently asked questions
- OLAP 和 OLTP 有什么区别?
- OLTP(联机事务处理)处理许多短的读写事务,例如下订单,重点是数据一致性和快速更新。OLAP(联机分析处理)处理复杂的、以读取为主的查询,这些查询聚合大量历史数据以进行分析。数据仓库专为 OLAP 设计,并与为其提供数据的 OLTP 系统分开。
- 为什么使用星型模式而不是完全规范化的设计?
- 分析查询通常将一个大型事实表连接到多个维度表并进行聚合。星型模式有意地对维度进行反规范化,以最大程度地减少连接,并使这些聚合查询快速且直观。规范化会消除的冗余在这里是可以接受的,因为数据仓库是批量加载的,并且查询的频率远高于更新的频率。