Neden kesin gradyan yerine gürültülü gradyanlar kullanılır?

Milyonlarca veri noktası üzerinden kesin gradyanı hesaplamak maliyetlidir. Küçük rastgele bir partiden tahmin edilen bir gradyan çok daha ucuzdur ve gürültülü olmasına rağmen, ortalama olarak hala aşağı yönü işaret etmektedir. Bu nedenle, birçok ucuz gürültülü adım, birkaç kesin adımdan daha etkili olabilmektedir.

Adım büyüklüğü zamanla neden genellikle küçülür?

Adım büyüklüğünün azaltılması, yinelemeler optimuma yaklaştıkça gradyan gürültüsünü sönümlemektedir; bu durum, Robbins-Monro koşullarının yakınsama için gerektirdiği bir husustur. Çok büyük kalan bir adım büyüklüğü ise tahminin çözüm etrafında salınmasına yol açabilmektedir.

Stokastik Optimizasyon

Stokastik optimizasyon, tam ve kesin hedef yerine, verilerin rastgele alt kümelerinden veya rastgele pertürbasyonlardan elde edilen parametre güncellemeleriyle, bir hedefin gradyanının veya değerinin gürültülü tahminlerini kullanarak bu hedefi minimize etmeyi amaçlar.

PaperMind ile konu bulYakındaMakale ve konu bul

Tools & resources

Slaytları indir

Learn & explore

VideoYakında

Tanım

Stokastik optimizasyon, bir hedefin veya gradyanının rastgele, tarafsız tahminlerini kullanarak parametre tahminlerini güncelleyen yinelemeli yöntemler ailesidir; bu yöntemler, tam hedefin değerlendirilmesinin çok maliyetli olduğu veya yalnızca gürültü ile gözlemlendiği durumlarda optimizasyonu mümkün kılmaktadır.

Kapsam

Bu konu, Robbins-Monro geleneğindeki stokastik yaklaşıklığı, stokastik gradyan inişini ve bunun mini-parti (mini-batch) ve momentum varyantlarını, yakınsamayı kontrol eden adım büyüklüğü (öğrenme oranı) çizelgelerini, gürültü ile hesaplama maliyeti arasındaki dengeyi ve yakınsama garantilerini kapsamaktadır. Büyük ölçekli istatistiksel ve makine öğrenimi modellerinin uyarlanmasındaki rolü vurgulanmaktadır.

Temel sorular

Gürültülü gradyan tahminleri, bir optimuma yakınsamayı nasıl sağlayabilir?
Robbins-Monro çerçevesinde hangi adım büyüklüğü çizelgeleri yakınsamayı garanti eder?
Mini-parti (mini-batch) kullanımı, gürültüyü adım başına hesaplama maliyetiyle nasıl dengeler?
Stokastik optimizasyon, çok büyük veri kümeleri için neden temel bir öneme sahiptir?

Anahtar kavramlar

Stokastik yaklaşıklık
Mini-parti gradyanı
Öğrenme oranı çizelgesi
Tarafsız gradyan tahmini
Adım büyüklüğü azalması
Neredeyse kesin yakınsama

Temel kuramlar

Stokastik yaklaşıklık: Robbins-Monro şeması, gürültülü ölçümlerden bilinmeyen bir fonksiyonun kökünü, büyüklükleri belirli bir oranda azalan küçük adımlar atarak bulur ve adım büyüklüğü dizisi üzerindeki koşullar altında neredeyse kesin olarak yakınsar.
Stokastik gradyan yöntemleri: Tam gradyanın yerine rastgele bir veri alt kümesinden elde edilen tarafsız bir tahminin konulması, ortalama yörüngesi hedefi azaltan uygun maliyetli güncellemeler sağlamaktadır. Öğrenme oranı çizelgeleri ise yakınsama hızını gürültünün varyansına karşı dengelemektedir.

Klinik önem

Stokastik gradyan yöntemleri, tek seferde işlenemeyecek kadar büyük veri kümelerine modellerin uyarlanmasını mümkün kılmaktadır. Ayrıca, her adımda tam gradyanın hesaplanmasının çok maliyetli olacağı sinir ağlarının ve büyük ölçekli regresyonun eğitimi için baskın optimizasyon stratejisi olarak kullanılmaktadır.

Tarihçe

Robbins ve Monro, 1951'de gürültülü gözlemlerden kökleri bulmak amacıyla stokastik yaklaşıklığı tanıtmıştır. Kısa süre sonra Kiefer ve Wolfowitz bu yöntemi optimizasyona uyarlamıştır. Büyük ölçekli makine öğrenimindeki hızlı gelişim, bu fikirleri stokastik gradyan inişi ve onun birçok modern varyantı olarak yeniden gündeme getirmiştir.

Öne çıkan isimler

Herbert Robbins
Sutton Monro
Harold Kushner
Jack Kiefer

İlgili konular

Temel eserler

robbins1951
kushner2003

Sıkça sorulan sorular

Neden kesin gradyan yerine gürültülü gradyanlar kullanılır?: Milyonlarca veri noktası üzerinden kesin gradyanı hesaplamak maliyetlidir. Küçük rastgele bir partiden tahmin edilen bir gradyan çok daha ucuzdur ve gürültülü olmasına rağmen, ortalama olarak hala aşağı yönü işaret etmektedir. Bu nedenle, birçok ucuz gürültülü adım, birkaç kesin adımdan daha etkili olabilmektedir.
Adım büyüklüğü zamanla neden genellikle küçülür?: Adım büyüklüğünün azaltılması, yinelemeler optimuma yaklaştıkça gradyan gürültüsünü sönümlemektedir; bu durum, Robbins-Monro koşullarının yakınsama için gerektirdiği bir husustur. Çok büyük kalan bir adım büyüklüğü ise tahminin çözüm etrafında salınmasına yol açabilmektedir.