ScholarGate
Asistan

Dağıtık ve Paralel Veritabanları

Dağıtık ve paralel veritabanları, verilerin tutarlı bir görünümünü korurken ölçeklenebilirlik, erişilebilirlik ve yüksek performans elde etmek amacıyla verileri ve sorgu işlemeyi birden çok makineye yaymaktadır.

PaperMind ile konu bulYakındaMakale ve konu bul
Tools & resources
Slaytları indir
Learn & explore
VideoYakında

Tanım

Dağıtık bir veritabanı, kullanıcılara tek bir veritabanı gibi görünen birden çok ağa bağlı siteye veri depolarken, paralel bir veritabanı, daha yüksek verim ve daha düşük gecikme süresi için veritabanı işlemlerini eşzamanlı olarak yürütmek üzere birden çok işlemci ve disk (genellikle paylaşımsız) kullanmaktadır.

Kapsam

Bu alan, verilerin birçok düğüm arasında yönetilmesini kapsamaktadır: verilerin nasıl bölümlendiği (parçalandığı) ve çoğaltıldığı; sorguların bölümler ve dağıtık siteler arasında nasıl paralel olarak işlendiği; ve işlemlerin atomik olarak nasıl kaydedildiği ve kopyaların kayıt ve konsensüs protokolleri aracılığıyla nasıl tutarlı kaldığı incelenmektedir. Paylaşımsız (shared-nothing) paralel veritabanları ile coğrafi olarak dağıtık veritabanları arasındaki mimari ayrımı ele almaktadır. Genel dağıtık bilgi işlem konularının veritabanına özgü bir tamamlayıcısıdır; bu konulara atıfta bulunmakla birlikte onları tekrar etmemektedir; genel amaçlı konsensüs ve dağıtık sistemler teorisini, veritabanı kullanımlarının ötesinde tutmamaktadır.

Alt konular

Temel sorular

  • Veriler düğümler arasında nasıl ve neden bölümlenmekte ve çoğaltılmaktadır?
  • Sorgular bölümler ve siteler arasında paralel olarak nasıl yürütülmektedir?
  • Birden çok düğümü kapsayan bir işlem atomik olarak nasıl kaydedilmektedir?
  • Kopyalar, arızalar durumunda nasıl tutarlı kalmaktadır?
  • Paralel (paylaşımsız) ve coğrafi olarak dağıtık tasarımlar nasıl farklılık göstermektedir?

Anahtar kavramlar

  • yatay ve dikey parçalama
  • çoğaltma
  • paylaşımsız mimari
  • bölümlenmiş ve boru hattı paralelciliği
  • dağıtık sorgu işleme
  • iki aşamalı kayıt (two-phase commit)
  • konsensüs ve kopya tutarlılığı
  • hızlanma ve ölçeklenme

Temel kuramlar

Veri bölümleme ve çoğaltma
Tablolar ölçeklenebilirlik için yatay veya dikey olarak parçalanmakta ve düğümler arasında dağıtılmakta, kopyalar ise erişilebilirlik ve okuma performansı için çoğaltılmaktadır; yerleştirme stratejisi yük dengesini ve hata toleransını belirlemektedir.
Paralel sorgu işleme
Paylaşımsız paralel veritabanları, verileri bölümleyerek ve taramalar ve birleştirmeler gibi operatörleri düğümler arasında paralel olarak yürüterek, bölümlenmiş ve boru hattı paralelciliğinden yararlanarak neredeyse doğrusal hızlanma ve ölçeklenme sağlamaktadır.
Dağıtık kayıt ve kopya tutarlılığı
İki aşamalı kayıt gibi atomik kayıt protokolleri, siteler arasında ya hep ya hiç sonuçlarını sağlamakta, konsensüs ve çoğaltma protokolleri ise düğüm ve ağ arızalarına rağmen kopyaları tutarlı tutmaktadır.

Klinik önem

Dağıtık ve paralel veritabanları, veri sistemlerinin internet iş yüklerine göre ölçeklenmesini sağlamaktadır: paralel veri ambarları petabaytlarca veri üzerinde analizler yürütmekte, coğrafi olarak dağıtık veritabanları küresel hizmetleri erişilebilir ve düşük gecikmeli tutmakta, ve buradaki bölümleme, çoğaltma ve kayıt teknikleri neredeyse her büyük ölçekli veri platformunun temelini oluşturmaktadır.

Tarihçe

Dağıtık veritabanı araştırmaları, 1970'lerin sonlarında SDD-1 ve dağıtık Ingres gibi sistemlerle başlamıştır. 1980'lerde, DeWitt ve Gray'in 1992'de yüksek performanslı veri yönetiminin geleceği olduğunu savunduğu paylaşımsız paralel veritabanları (Gamma, Teradata) ortaya çıkmıştır. İnternet ölçeğindeki talepler daha sonra modern bulut veri platformlarını tanımlayan bölümlenmiş, çoğaltılmış sistemleri tetiklemiştir.

Öne çıkan isimler

  • M. Tamer Özsu
  • Patrick Valduriez
  • David DeWitt
  • Jim Gray

İlgili konular

Temel eserler

  • ozsu2011
  • dewitt1992
  • silberschatz2019

Sıkça sorulan sorular

Dağıtık veritabanı ile paralel veritabanı arasındaki fark nedir?
Paralel bir veritabanı, sorguları daha hızlı çalıştırmak için genellikle tek bir konumda hızlı bir ara bağlantıya (sıklıkla paylaşımsız bir küme) sahip birçok sıkıca bağlı işlemci ve disk kullanmaktadır. Dağıtık bir veritabanı ise verileri erişilebilirlik ve yerellik için ayrı, genellikle coğrafi olarak dağınık sitelere yaymaktadır. Sınır belirsizleşse de, paralel veritabanları performansı, dağıtık veritabanları ise dağıtımı ve özerkliği vurgulamaktadır.
Neden paylaşımsız mimari baskın paralel mimaridir?
Paylaşımsız bir tasarımda her düğümün kendi CPU'su, belleği ve diski bulunmaktadır, bu nedenle düğümler eklendikçe darboğaz haline gelecek merkezi bir kaynak bulunmamaktadır. Bu durum, sistemin neredeyse doğrusal hızlanma ve ölçeklenme elde etmesini sağlamaktadır, bu yüzden ölçeklenebilir paralel ve analitik veritabanları için standart mimari haline gelmiştir.

Bu kavram için yöntemler

İlgili kavramlar