ScholarGate
Asistan

Yüksek Performanslı İstatistiksel Hesaplama

Yüksek performanslı istatistiksel hesaplama, tek bir sıradan hesaplama için çok büyük olan veri ve modeller üzerinde istatistiksel yöntemleri çalıştırmak amacıyla paralellik, dağıtık işleme ve donanım hızlandırmayı uygulamaktadır.

PaperMind ile konu bulYakındaMakale ve konu bul
Tools & resources
Slaytları indir
Learn & explore
VideoYakında

Tanım

Yüksek performanslı istatistiksel hesaplama, büyük veri kümeleri ve hesaplama açısından zorlayıcı modeller üzerinde istatistiksel algoritmaları verimli bir şekilde yürütmek için paralel, dağıtık ve hızlandırılmış hesaplama tekniklerinin kullanılmasıdır.

Kapsam

Bu konu, istatistiksel iş yükleri için paralel ve dağıtık stratejileri, birçok simülasyon ve yeniden örnekleme görevinin kolayca paralelleştirilebilir (embarrassingly parallel) yapısını, dağıtık veri işleme modellerini, GPU'ların ve vektörleştirilmiş doğrusal cebirin kullanımını ve iletişim, bellek ile hesaplama arasındaki ödünleşimleri kapsamaktadır. Odak noktası, algoritma tasarımından ziyade istatistiksel hesaplamanın ölçeklendirilmesidir.

Temel sorular

  • Hangi istatistiksel hesaplamalar doğal olarak paraleldir ve bunlar nasıl dağıtılmaktadır?
  • Dağıtık veri işleme modelleri, analizi birçok makineye nasıl ölçeklendirmektedir?
  • GPU'lar ve optimize edilmiş doğrusal cebir, istatistiksel iş yüklerini nasıl hızlandırmaktadır?
  • İletişim ve bellek maliyetleri, paralel hızlanmaları nasıl sınırlamaktadır?

Anahtar kavramlar

  • Kolayca paralelleştirilebilir görevler (embarrassingly parallel tasks)
  • Dağıtık veri işleme
  • GPU hızlandırması
  • İletişim maliyeti
  • Ölçeklenebilirlik
  • Vektörleştirilmiş doğrusal cebir

Temel kuramlar

Paralel ve dağıtık istatistiksel iş yükleri
Bootstrap yeniden örnekleme, çapraz doğrulama ve bağımsız Monte Carlo çalıştırmaları gibi birçok istatistiksel görev kolayca paralelleştirilebilir (embarrassingly parallel) niteliktedir; dağıtık işleme modelleri ise büyük veriyi makineler arasında bölmekte ve kısmi sonuçları birleştirmektedir.
Donanım hızlandırması
Vektörleştirilmiş ve GPU hızlandırmalı doğrusal cebir, istatistiksel hesaplamanın matris yoğun çekirdeğini hızlandırmaktadır; ancak elde edilen kazançlar, veri hareketinin yönetimine ve iletişim ile hesaplama arasındaki dengeye bağlıdır.

Klinik önem

Ölçeklenebilir hesaplama, büyük genomik, sensör ve işlem verisi kümelerine modellerin uyarlanmasını, geniş simülasyon çalışmalarının yürütülmesini ve Bayesci ile makine öğrenimi çıkarımlarının pratik bir sürede sunulmasını mümkün kılmaktadır; bu da istatistiksel yöntemlerin erişimini aksi takdirde çözülemeyecek sorunlara genişletmektedir.

Tarihçe

Veri kümeleri tek makinelerin kapasitesini aştıkça, istatistikçiler paralel ve dağıtık hesaplamayı benimsemiştir: kolayca paralelleştirilebilir (embarrassingly parallel) simülasyon ilk olarak ortaya çıkmış, MapReduce ve ardılları gibi dağıtık çerçeveler büyük ölçekli veri işlemeyi mümkün kılmış ve GPU hızlandırması matris yoğun istatistiksel yöntemlere hız artışları getirmiştir.

Öne çıkan isimler

  • James Gentle
  • Kenneth Lange
  • Jeffrey Dean
  • Sanjay Ghemawat

İlgili konular

Temel eserler

  • gentle2009
  • dean2008

Sıkça sorulan sorular

Bazı istatistiksel görevleri paralelleştirmeyi kolaylaştıran nedir?
Bootstrap yeniden örneklemeleri, çapraz doğrulama katlamaları veya bağımsız simülasyon çalıştırmaları gibi görevler birbirine bağlı değildir, bu nedenle eş zamanlı olarak hesaplanabilir ve sonunda birleştirilebilir. Bu tür kolayca paralelleştirilebilir (embarrassingly parallel) işler, işlemcilerle neredeyse doğrusal olarak ölçeklenmektedir.
İşlemci eklemek neden her zaman orantılı bir hızlanma sağlamaz?
Paralel hesaplama, işlemciler arasında iletişim ve senkronizasyon ile veri taşıma nedeniyle ek yük getirmektedir. Bu maliyetler hesaplamaya göre arttığında, ek işlemciler azalan getiriler sağlamaktadır.

Bu kavram için yöntemler

İlgili kavramlar