ScholarGate
Asistan

Stokastik Optimizasyon

Stokastik optimizasyon, tam ve kesin hedef yerine, verilerin rastgele alt kümelerinden veya rastgele pertürbasyonlardan elde edilen parametre güncellemeleriyle, bir hedefin gradyanının veya değerinin gürültülü tahminlerini kullanarak bu hedefi minimize etmeyi amaçlar.

PaperMind ile konu bulYakındaMakale ve konu bul
Tools & resources
Slaytları indir
Learn & explore
VideoYakında

Tanım

Stokastik optimizasyon, bir hedefin veya gradyanının rastgele, tarafsız tahminlerini kullanarak parametre tahminlerini güncelleyen yinelemeli yöntemler ailesidir; bu yöntemler, tam hedefin değerlendirilmesinin çok maliyetli olduğu veya yalnızca gürültü ile gözlemlendiği durumlarda optimizasyonu mümkün kılmaktadır.

Kapsam

Bu konu, Robbins-Monro geleneğindeki stokastik yaklaşıklığı, stokastik gradyan inişini ve bunun mini-parti (mini-batch) ve momentum varyantlarını, yakınsamayı kontrol eden adım büyüklüğü (öğrenme oranı) çizelgelerini, gürültü ile hesaplama maliyeti arasındaki dengeyi ve yakınsama garantilerini kapsamaktadır. Büyük ölçekli istatistiksel ve makine öğrenimi modellerinin uyarlanmasındaki rolü vurgulanmaktadır.

Temel sorular

  • Gürültülü gradyan tahminleri, bir optimuma yakınsamayı nasıl sağlayabilir?
  • Robbins-Monro çerçevesinde hangi adım büyüklüğü çizelgeleri yakınsamayı garanti eder?
  • Mini-parti (mini-batch) kullanımı, gürültüyü adım başına hesaplama maliyetiyle nasıl dengeler?
  • Stokastik optimizasyon, çok büyük veri kümeleri için neden temel bir öneme sahiptir?

Anahtar kavramlar

  • Stokastik yaklaşıklık
  • Mini-parti gradyanı
  • Öğrenme oranı çizelgesi
  • Tarafsız gradyan tahmini
  • Adım büyüklüğü azalması
  • Neredeyse kesin yakınsama

Temel kuramlar

Stokastik yaklaşıklık
Robbins-Monro şeması, gürültülü ölçümlerden bilinmeyen bir fonksiyonun kökünü, büyüklükleri belirli bir oranda azalan küçük adımlar atarak bulur ve adım büyüklüğü dizisi üzerindeki koşullar altında neredeyse kesin olarak yakınsar.
Stokastik gradyan yöntemleri
Tam gradyanın yerine rastgele bir veri alt kümesinden elde edilen tarafsız bir tahminin konulması, ortalama yörüngesi hedefi azaltan uygun maliyetli güncellemeler sağlamaktadır. Öğrenme oranı çizelgeleri ise yakınsama hızını gürültünün varyansına karşı dengelemektedir.

Klinik önem

Stokastik gradyan yöntemleri, tek seferde işlenemeyecek kadar büyük veri kümelerine modellerin uyarlanmasını mümkün kılmaktadır. Ayrıca, her adımda tam gradyanın hesaplanmasının çok maliyetli olacağı sinir ağlarının ve büyük ölçekli regresyonun eğitimi için baskın optimizasyon stratejisi olarak kullanılmaktadır.

Tarihçe

Robbins ve Monro, 1951'de gürültülü gözlemlerden kökleri bulmak amacıyla stokastik yaklaşıklığı tanıtmıştır. Kısa süre sonra Kiefer ve Wolfowitz bu yöntemi optimizasyona uyarlamıştır. Büyük ölçekli makine öğrenimindeki hızlı gelişim, bu fikirleri stokastik gradyan inişi ve onun birçok modern varyantı olarak yeniden gündeme getirmiştir.

Öne çıkan isimler

  • Herbert Robbins
  • Sutton Monro
  • Harold Kushner
  • Jack Kiefer

İlgili konular

Temel eserler

  • robbins1951
  • kushner2003

Sıkça sorulan sorular

Neden kesin gradyan yerine gürültülü gradyanlar kullanılır?
Milyonlarca veri noktası üzerinden kesin gradyanı hesaplamak maliyetlidir. Küçük rastgele bir partiden tahmin edilen bir gradyan çok daha ucuzdur ve gürültülü olmasına rağmen, ortalama olarak hala aşağı yönü işaret etmektedir. Bu nedenle, birçok ucuz gürültülü adım, birkaç kesin adımdan daha etkili olabilmektedir.
Adım büyüklüğü zamanla neden genellikle küçülür?
Adım büyüklüğünün azaltılması, yinelemeler optimuma yaklaştıkça gradyan gürültüsünü sönümlemektedir; bu durum, Robbins-Monro koşullarının yakınsama için gerektirdiği bir husustur. Çok büyük kalan bir adım büyüklüğü ise tahminin çözüm etrafında salınmasına yol açabilmektedir.

Bu kavram için yöntemler

İlgili kavramlar