Veri Ambarlama ve OLAP
Veri ambarlama, birçok kaynaktan gelen verileri analiz için sorgu-optimize edilmiş bir depoda bir araya getirmekte; çevrimiçi analitik işleme (OLAP) ise analistlerin bu verileri etkileşimli olarak keşfetmesine olanak tanıyan çok boyutlu model ve işlemleri sağlamaktadır.
Tanım
Veri ambarı, birden çok operasyonel kaynaktan analiz için çekilen entegre geçmiş verilerin birleştirilmiş, sorgu-optimize edilmiş bir deposu olarak tanımlanmaktadır; OLAP ise bu tür verileri çok boyutlu bir modele dönüştüren ve hızlı toplu sorguları ve etkileşimli keşfi destekleyen teknolojidir.
Kapsam
Bu konu, veri yönetiminin analitik yönünü kapsamaktadır: operasyonel sistemlerden ayrı, entegre, konu odaklı bir depo olarak veri ambarı; onu dolduran ayıklama-dönüştürme-yükleme (ETL) hattı; olgular ve boyutların yıldız ve kar tanesi şemalarıyla boyutsal modelleme; çok boyutlu veri küpü ve OLAP işlemleri (toplama, detaya inme, dilimleme, küp kesme, eksen değiştirme); ve analitik (OLAP) ile işlemsel (OLTP) iş yükleri arasındaki karşıtlık. İşlemsel eşzamanlılık kontrolü ve bitişik konular olan genel NoSQL depoları bu kapsamın dışındadır.
Temel sorular
- Bir veri ambarı, operasyonel (OLTP) bir veritabanından nasıl farklılık gösterir?
- Boyutsal modelleme nedir ve yıldız ile kar tanesi şemaları olguları ve boyutları nasıl düzenler?
- Veri küpü, group-by'ı nasıl genelleştirir ve çok boyutlu analizi nasıl destekler?
- OLAP işlemleri olan toplama, detaya inme, dilimleme, küp kesme ve eksen değiştirme ne işe yarar?
- ETL süreci, ambar verilerini entegre etmek ve yüklemek için nasıl kullanılır?
Anahtar kavramlar
- veri ambarı
- ayıklama-dönüştürme-yükleme (ETL)
- yıldız ve kar tanesi şemaları
- olgu ve boyut tabloları
- veri küpü
- toplama, detaya inme, dilimleme, küp kesme, eksen değiştirme
- gerçekleştirilmiş görünümler
- OLAP ve OLTP karşılaştırması
Temel kuramlar
- Boyutsal modelleme
- Ambarlar genellikle yıldız ve kar tanesi şemalarıyla modellenmektedir; bu şemalarda ölçümlerin merkezi bir olgu tablosu, çevresindeki boyut tablolarına (zaman, ürün, konum) referans vermekte ve analistlerin çalıştırdığı toplu, yoğun okuma sorgularını optimize etmektedir.
- Veri küpü ve OLAP işlemleri
- Veri küpü operatörü, group-by'ı genelleştirerek boyutların tüm kombinasyonları üzerinde toplamaları hesaplamakta, etkileşimli çok boyutlu analiz için toplama, detaya inme, dilimleme, küp kesme ve eksen değiştirmeyi desteklemektedir.
- OLAP'ın OLTP'den ayrılması
- Analitik iş yükleri, büyük hacimli geçmiş verileri tarar ve toplar; bu durum kısa işlemsel güncellemelerden temelden farklıdır ve operasyonel sistemlerden ETL ile doldurulan ayrı, entegre, okuma-optimize edilmiş bir ambarı gerektirmektedir.
Klinik önem
Veri ambarlama ve OLAP, iş zekasının temelini oluşturmaktadır: kuruluşlar operasyonel verileri ambarlarda birleştirerek OLAP'ı zaman, bölge ve ürün gibi boyutlar arasında satış, finans ve operasyonları analiz etmek için kullanmakta, bu da söz konusu teknolojileri veri odaklı karar alma süreçlerinin merkezine yerleştirmektedir.
Tarihçe
Veri ambarlama, 1990'ların başında kuruluşların analitik sorgulamayı operasyonel veritabanlarından ayırmasıyla ortaya çıkmıştır; Kimball'ın boyutsal modelleme yaklaşımı ve Inmon'ın kurumsal ambar yaklaşımı bu alanı şekillendirmiştir. Veri küpü operatörü (Gray ve diğerleri, 1997) çok boyutlu toplamayı resmileştirmiş, Chaudhuri ve Dayal'ın 1997 tarihli genel bakışı ise modern analitik platformlarının temelini oluşturan ambarlama ve OLAP teknolojisini bir araya getirmiştir.
Öne çıkan isimler
- Surajit Chaudhuri
- Umeshwar Dayal
- Jim Gray
- Ralph Kimball
İlgili konular
Temel eserler
- chaudhuri1997
- gray1997
- kimball2013
Sıkça sorulan sorular
- OLAP ve OLTP arasındaki fark nedir?
- OLTP (çevrimiçi işlem işleme), sipariş verme gibi birçok kısa okuma-yazma işlemini tutarlılık ve hızlı güncellemeler vurgusuyla ele almaktadır. OLAP (çevrimiçi analitik işleme) ise analiz için büyük hacimli geçmiş verileri toplayan karmaşık, çoğunlukla okuma sorgularını ele almaktadır. Veri ambarları OLAP için tasarlanmış olup, kendilerini besleyen OLTP sistemlerinden ayrı tutulmaktadır.
- Tamamen normalleştirilmiş bir tasarım yerine neden yıldız şeması kullanılır?
- Analitik sorgular genellikle büyük bir olgu tablosunu birkaç boyut tablosuyla birleştirir ve toplar. Yıldız şeması, birleştirmeleri en aza indirmek ve bu toplu sorguları hızlı ve sezgisel hale getirmek amacıyla boyutları kasıtlı olarak denormalize etmektedir. Normalleştirmenin ortadan kaldıracağı fazlalık burada kabul edilebilir bir durumdur, zira ambar toplu olarak yüklenmekte ve güncellenmesinden çok daha fazla sorgulanmaktadır.