데이터 웨어하우징 및 OLAP
데이터 웨어하우징은 분석을 위해 여러 소스의 데이터를 쿼리 최적화된 저장소로 통합하며, 온라인 분석 처리(OLAP)는 분석가가 해당 데이터를 상호작용적으로 탐색할 수 있도록 다차원 모델과 작업을 제공합니다.
Definition
데이터 웨어하우스는 분석을 위해 여러 운영 소스에서 가져온 통합된 이력 데이터를 저장하는 통합되고 쿼리 최적화된 저장소입니다. OLAP는 이러한 데이터를 다차원 모델로 구성하고 빠른 집계 쿼리 및 상호작용적 탐색을 지원하는 기술입니다.
Scope
이 주제는 데이터 관리의 분석 측면을 다룹니다: 운영 시스템과 분리된 통합된 주제 중심 저장소로서의 데이터 웨어하우스; 이를 채우는 추출-변환-적재(ETL) 파이프라인; 사실 및 차원의 스타 및 스노우플레이크 스키마를 사용한 차원 모델링; 다차원 데이터 큐브 및 OLAP 작업(롤업, 드릴다운, 슬라이스, 다이스, 피벗); 그리고 분석(OLAP) 및 트랜잭션(OLTP) 워크로드 간의 대조. 인접 주제인 트랜잭션 동시성 제어 및 일반적인 NoSQL 저장소는 제외됩니다.
Core questions
- 데이터 웨어하우스는 운영(OLTP) 데이터베이스와 어떻게 다른가요?
- 차원 모델링이란 무엇이며, 스타 및 스노우플레이크 스키마는 사실과 차원을 어떻게 구성하나요?
- 데이터 큐브는 그룹화를 어떻게 일반화하고 다차원 분석을 지원하나요?
- OLAP 작업인 롤업, 드릴다운, 슬라이스, 다이스, 피벗은 무엇을 하는가요?
- ETL 프로세스는 웨어하우스 데이터를 통합하고 로드하는 데 어떻게 사용되나요?
Key concepts
- 데이터 웨어하우스
- 추출-변환-적재 (ETL)
- 스타 및 스노우플레이크 스키마
- 사실 및 차원 테이블
- 데이터 큐브
- 롤업, 드릴다운, 슬라이스, 다이스, 피벗
- 구체화된 뷰
- OLAP 대 OLTP
Key theories
- Dimensional modeling
- Warehouses are commonly modeled with star and snowflake schemas in which a central fact table of measurements references surrounding dimension tables (time, product, location), optimizing for the aggregate, read-heavy queries analysts run.
- The data cube and OLAP operations
- The data-cube operator generalizes group-by to compute aggregates over all combinations of dimensions, supporting roll-up, drill-down, slice, dice, and pivot for interactive multidimensional analysis.
- Separation of OLAP from OLTP
- Analytical workloads scan and aggregate large volumes of historical data, which differs fundamentally from short transactional updates, motivating a separate, integrated, read-optimized warehouse populated by ETL from operational systems.
Clinical relevance
데이터 웨어하우징과 OLAP는 비즈니스 인텔리전스의 기반입니다. 조직은 운영 데이터를 웨어하우스로 통합하고 OLAP를 사용하여 시간, 지역, 제품과 같은 차원에 걸쳐 판매, 재무 및 운영을 분석함으로써 이러한 기술을 데이터 기반 의사 결정의 핵심으로 만듭니다.
History
데이터 웨어하우징은 1990년대 초 조직이 분석 쿼리를 운영 데이터베이스와 분리하면서 등장했습니다. Kimball의 차원 모델링 접근 방식과 Inmon의 엔터프라이즈 웨어하우스 접근 방식이 이 분야를 형성했습니다. 데이터 큐브 연산자(Gray et al., 1997)는 다차원 집계를 공식화했으며, Chaudhuri와 Dayal의 1997년 개요는 현대 분석 플랫폼의 기반이 되는 웨어하우징 및 OLAP 기술을 통합했습니다.
Key figures
- Surajit Chaudhuri
- Umeshwar Dayal
- Jim Gray
- Ralph Kimball
Related topics
Seminal works
- chaudhuri1997
- gray1997
- kimball2013
Frequently asked questions
- OLAP와 OLTP의 차이점은 무엇인가요?
- OLTP(온라인 트랜잭션 처리)는 일관성과 빠른 업데이트에 중점을 두고 주문 처리와 같은 많은 짧은 읽기-쓰기 트랜잭션을 처리합니다. OLAP(온라인 분석 처리)는 분석을 위해 대량의 이력 데이터를 집계하는 복잡한 읽기 중심 쿼리를 처리합니다. 웨어하우스는 OLAP용으로 설계되었으며, 데이터를 공급하는 OLTP 시스템과 분리되어 유지됩니다.
- 완전히 정규화된 설계 대신 스타 스키마를 사용하는 이유는 무엇인가요?
- 분석 쿼리는 일반적으로 큰 사실 테이블을 여러 차원 테이블과 조인하고 집계합니다. 스타 스키마는 조인을 최소화하고 이러한 집계 쿼리를 빠르고 직관적으로 만들기 위해 의도적으로 차원을 비정규화합니다. 정규화가 제거할 수 있는 중복성은 웨어하우스가 대량으로 로드되고 업데이트되는 것보다 훨씬 더 많이 쿼리되기 때문에 여기서는 허용됩니다.