Yüksek Performanslı İstatistiksel Hesaplama
Yüksek performanslı istatistiksel hesaplama, tek bir sıradan hesaplama için çok büyük olan veri ve modeller üzerinde istatistiksel yöntemleri çalıştırmak amacıyla paralellik, dağıtık işleme ve donanım hızlandırmayı uygulamaktadır.
Tanım
Yüksek performanslı istatistiksel hesaplama, büyük veri kümeleri ve hesaplama açısından zorlayıcı modeller üzerinde istatistiksel algoritmaları verimli bir şekilde yürütmek için paralel, dağıtık ve hızlandırılmış hesaplama tekniklerinin kullanılmasıdır.
Kapsam
Bu konu, istatistiksel iş yükleri için paralel ve dağıtık stratejileri, birçok simülasyon ve yeniden örnekleme görevinin kolayca paralelleştirilebilir (embarrassingly parallel) yapısını, dağıtık veri işleme modellerini, GPU'ların ve vektörleştirilmiş doğrusal cebirin kullanımını ve iletişim, bellek ile hesaplama arasındaki ödünleşimleri kapsamaktadır. Odak noktası, algoritma tasarımından ziyade istatistiksel hesaplamanın ölçeklendirilmesidir.
Temel sorular
- Hangi istatistiksel hesaplamalar doğal olarak paraleldir ve bunlar nasıl dağıtılmaktadır?
- Dağıtık veri işleme modelleri, analizi birçok makineye nasıl ölçeklendirmektedir?
- GPU'lar ve optimize edilmiş doğrusal cebir, istatistiksel iş yüklerini nasıl hızlandırmaktadır?
- İletişim ve bellek maliyetleri, paralel hızlanmaları nasıl sınırlamaktadır?
Anahtar kavramlar
- Kolayca paralelleştirilebilir görevler (embarrassingly parallel tasks)
- Dağıtık veri işleme
- GPU hızlandırması
- İletişim maliyeti
- Ölçeklenebilirlik
- Vektörleştirilmiş doğrusal cebir
Temel kuramlar
- Paralel ve dağıtık istatistiksel iş yükleri
- Bootstrap yeniden örnekleme, çapraz doğrulama ve bağımsız Monte Carlo çalıştırmaları gibi birçok istatistiksel görev kolayca paralelleştirilebilir (embarrassingly parallel) niteliktedir; dağıtık işleme modelleri ise büyük veriyi makineler arasında bölmekte ve kısmi sonuçları birleştirmektedir.
- Donanım hızlandırması
- Vektörleştirilmiş ve GPU hızlandırmalı doğrusal cebir, istatistiksel hesaplamanın matris yoğun çekirdeğini hızlandırmaktadır; ancak elde edilen kazançlar, veri hareketinin yönetimine ve iletişim ile hesaplama arasındaki dengeye bağlıdır.
Klinik önem
Ölçeklenebilir hesaplama, büyük genomik, sensör ve işlem verisi kümelerine modellerin uyarlanmasını, geniş simülasyon çalışmalarının yürütülmesini ve Bayesci ile makine öğrenimi çıkarımlarının pratik bir sürede sunulmasını mümkün kılmaktadır; bu da istatistiksel yöntemlerin erişimini aksi takdirde çözülemeyecek sorunlara genişletmektedir.
Tarihçe
Veri kümeleri tek makinelerin kapasitesini aştıkça, istatistikçiler paralel ve dağıtık hesaplamayı benimsemiştir: kolayca paralelleştirilebilir (embarrassingly parallel) simülasyon ilk olarak ortaya çıkmış, MapReduce ve ardılları gibi dağıtık çerçeveler büyük ölçekli veri işlemeyi mümkün kılmış ve GPU hızlandırması matris yoğun istatistiksel yöntemlere hız artışları getirmiştir.
Öne çıkan isimler
- James Gentle
- Kenneth Lange
- Jeffrey Dean
- Sanjay Ghemawat
İlgili konular
Temel eserler
- gentle2009
- dean2008
Sıkça sorulan sorular
- Bazı istatistiksel görevleri paralelleştirmeyi kolaylaştıran nedir?
- Bootstrap yeniden örneklemeleri, çapraz doğrulama katlamaları veya bağımsız simülasyon çalıştırmaları gibi görevler birbirine bağlı değildir, bu nedenle eş zamanlı olarak hesaplanabilir ve sonunda birleştirilebilir. Bu tür kolayca paralelleştirilebilir (embarrassingly parallel) işler, işlemcilerle neredeyse doğrusal olarak ölçeklenmektedir.
- İşlemci eklemek neden her zaman orantılı bir hızlanma sağlamaz?
- Paralel hesaplama, işlemciler arasında iletişim ve senkronizasyon ile veri taşıma nedeniyle ek yük getirmektedir. Bu maliyetler hesaplamaya göre arttığında, ek işlemciler azalan getiriler sağlamaktadır.