Kho dữ liệu và OLAP
Kho dữ liệu hợp nhất dữ liệu từ nhiều nguồn vào một kho được tối ưu hóa cho truy vấn để phân tích, và xử lý phân tích trực tuyến (OLAP) cung cấp mô hình đa chiều và các thao tác cho phép các nhà phân tích khám phá dữ liệu đó một cách tương tác.
Definition
Kho dữ liệu là một kho lưu trữ hợp nhất, được tối ưu hóa cho truy vấn, chứa dữ liệu lịch sử tích hợp được lấy từ nhiều nguồn vận hành để phân tích; OLAP là công nghệ tổ chức dữ liệu đó thành một mô hình đa chiều và hỗ trợ các truy vấn tổng hợp nhanh chóng cũng như khám phá tương tác.
Scope
Chủ đề này bao gồm khía cạnh phân tích của quản lý dữ liệu: kho dữ liệu như một kho tích hợp, hướng đối tượng, tách biệt khỏi các hệ thống vận hành; quy trình trích xuất-chuyển đổi-tải (ETL) để điền dữ liệu vào đó; mô hình hóa chiều với lược đồ sao và bông tuyết của các sự kiện và chiều; khối dữ liệu đa chiều và các thao tác OLAP (cuộn lên, đào sâu, cắt lát, cắt khối, xoay); và sự tương phản giữa khối lượng công việc phân tích (OLAP) và giao dịch (OLTP). Nó không bao gồm kiểm soát đồng thời giao dịch và các kho NoSQL nói chung, vốn là các chủ đề liền kề.
Core questions
- Kho dữ liệu khác với cơ sở dữ liệu vận hành (OLTP) như thế nào?
- Mô hình hóa chiều là gì, và lược đồ sao và bông tuyết tổ chức các sự kiện và chiều như thế nào?
- Khối dữ liệu tổng quát hóa nhóm theo và hỗ trợ phân tích đa chiều như thế nào?
- Các thao tác OLAP cuộn lên, đào sâu, cắt lát, cắt khối và xoay làm gì?
- Quá trình ETL được sử dụng như thế nào để tích hợp và tải dữ liệu kho?
Key concepts
- kho dữ liệu
- trích xuất-chuyển đổi-tải (ETL)
- lược đồ sao và bông tuyết
- bảng sự kiện và chiều
- khối dữ liệu
- cuộn lên, đào sâu, cắt lát, cắt khối, xoay
- chế độ xem vật lý
- OLAP so với OLTP
Key theories
- Mô hình hóa chiều
- Các kho dữ liệu thường được mô hình hóa bằng lược đồ sao và bông tuyết, trong đó một bảng sự kiện trung tâm chứa các phép đo tham chiếu đến các bảng chiều xung quanh (thời gian, sản phẩm, địa điểm), tối ưu hóa cho các truy vấn tổng hợp, đọc nhiều mà các nhà phân tích thực hiện.
- Khối dữ liệu và các thao tác OLAP
- Toán tử khối dữ liệu tổng quát hóa nhóm theo để tính toán các tổng hợp trên tất cả các kết hợp của các chiều, hỗ trợ cuộn lên, đào sâu, cắt lát, cắt khối và xoay để phân tích đa chiều tương tác.
- Tách biệt OLAP khỏi OLTP
- Khối lượng công việc phân tích quét và tổng hợp một lượng lớn dữ liệu lịch sử, điều này khác biệt cơ bản so với các cập nhật giao dịch ngắn, thúc đẩy một kho dữ liệu riêng biệt, tích hợp, tối ưu hóa đọc được điền bởi ETL từ các hệ thống vận hành.
Clinical relevance
Kho dữ liệu và OLAP là nền tảng của kinh doanh thông minh: các tổ chức hợp nhất dữ liệu vận hành vào kho và sử dụng OLAP để phân tích doanh số, tài chính và hoạt động trên các chiều như thời gian, khu vực và sản phẩm, làm cho các công nghệ này trở nên trung tâm trong việc ra quyết định dựa trên dữ liệu.
History
Kho dữ liệu xuất hiện vào đầu những năm 1990 khi các tổ chức tách biệt truy vấn phân tích khỏi cơ sở dữ liệu vận hành; cách tiếp cận mô hình hóa chiều của Kimball và cách tiếp cận kho doanh nghiệp của Inmon đã định hình lĩnh vực này. Toán tử khối dữ liệu (Gray et al., 1997) đã chính thức hóa việc tổng hợp đa chiều, và tổng quan năm 1997 của Chaudhuri và Dayal đã hợp nhất công nghệ kho dữ liệu và OLAP làm nền tảng cho các nền tảng phân tích hiện đại.
Key figures
- Surajit Chaudhuri
- Umeshwar Dayal
- Jim Gray
- Ralph Kimball
Related topics
Seminal works
- chaudhuri1997
- gray1997
- kimball2013
Frequently asked questions
- Sự khác biệt giữa OLAP và OLTP là gì?
- OLTP (xử lý giao dịch trực tuyến) xử lý nhiều giao dịch đọc-ghi ngắn, chẳng hạn như đặt hàng, với sự nhấn mạnh vào tính nhất quán và cập nhật nhanh chóng. OLAP (xử lý phân tích trực tuyến) xử lý các truy vấn phức tạp, chủ yếu là đọc, tổng hợp một lượng lớn dữ liệu lịch sử để phân tích. Các kho dữ liệu được thiết kế cho OLAP và được giữ tách biệt khỏi các hệ thống OLTP cung cấp dữ liệu cho chúng.
- Tại sao sử dụng lược đồ sao thay vì thiết kế được chuẩn hóa hoàn toàn?
- Các truy vấn phân tích thường nối một bảng sự kiện lớn với một số bảng chiều và tổng hợp. Lược đồ sao cố tình phi chuẩn hóa các chiều để giảm thiểu các phép nối và làm cho các truy vấn tổng hợp này nhanh chóng và trực quan. Sự dư thừa mà việc chuẩn hóa sẽ loại bỏ là chấp nhận được ở đây vì kho dữ liệu được tải hàng loạt và được truy vấn nhiều hơn đáng kể so với việc cập nhật.