Machine learning

Stochastic Gradient Descent with Momentum and Adaptive Moment Estimation (Adam)

Ayrıca şöyle bilinir: Adam, Adam optimizer, SGD with momentum, momentum SGD, adaptive gradient optimizer, first-order stochastic optimizer

Bir sinir ağını eğitmek, çok yüksek boyutlu bir kayıp yüzeyinde bir vadi (düşük kayıp) aramak anlamına gelir. Düz gradyan inişi yokuş aşağı adım atar ancak küçük, tereddütlü adımlar atar ve vadilerde zikzak yapabilir. Momentum, son yönleri hatırlayan bir hız vektörü biriktirerek zikzak yapmayı düzeltir — optimize edici tutarlı yokuş aşağı yönlerde hız kazanır ve bunların karşısındaki salınımları söndürür. Adam daha ileri gider: ayrıca her bir ağırlığın ne kadar hareket ettiğini de takip eder. Gradyanları tutarlı olarak büyük olan parametreler daha küçük adımlar alır; küçük veya seyrek gradyanlara sahip parametreler daha büyük adımlar alır. Sonuç, uygulayıcının her katman için ayrı oranları elle ayarlamasını gerektirmeden, her bir ağırlık için öğrenme oranını otomatik olarak uyarlayan bir optimize edicidir.

Araçlar & kaynaklar

Slaytları indir

Öğren & keşfet

Tam yöntemi oku

Yalnızca üyeler

Bu bölümü okumak için ücretsiz hesapla giriş yapın.

Giriş yap

Yöntem haritası

İlişkili yöntemlerin komşuluğu — keşfetmek için bir düğüm seçin.

SGD with Momentum / Adam Optimizer

Batch Normalization

Ne zaman kullanılır

Parametre başına adaptif öğrenme oranları, her katman veya parametre grubu için ayrı oranları elle ayarlama ihtiyacını ortadan kaldırır.

Güçlü yönler & sınırlılıklar

Güçlü yönler

Hesaplama açısından verimli: bellek ve adım başına hesaplama maliyeti O(θ), parametre sayısına göre doğrusaldır.
Sapma düzeltmesi, Adam'ı ayarlanmamış üstel hareketli ortalamaların aksine, ilk iterasyondan itibaren iyi davranır hale getirir.
Geniş bir hiperparametre seçimi yelpazesine karşı dayanıklıdır; varsayılanlar (α=0.001, β1=0.9, β2=0.999, ε=1e-8) birçok mimaride iyi çalışır.
Seyrek gradyanları etkili bir şekilde işler, bu da onu herhangi bir verilen mini yığında sıfır gradyan alan birçok ağırlığın olduğu gömme katmanları ve NLP modelleri için uygun hale getirir.
Kosinüs tavlama veya tek döngülü bir çizelgeye sahip Momentumlu SGD, bazı görüntü sınıflandırma kıyaslamalarında en gelişmiş genellemeyi elde eder ve hesaplama bütçesi kapsamlı ayarlamaya izin verdiğinde Adam'a güçlü bir alternatif sunar.
Adam, bazı dışbükey olmayan ayarlarda suboptimal çözümlere yakınsayabilir; Reddi ve ark. (2018), orijinal Adam algoritmasının yakınsamada başarısız olduğu durumları belirlemiş ve bir düzeltme olarak AMSGrad'ı önermiştir.

Sınırlılıklar

Adaptif öğrenme oranları, Adam'ın bazı görüntü sınıflandırma kıyaslamalarında dikkatlice ayarlanmış Momentumlu SGD'den biraz daha kötü genelleşmesine neden olabilir, bu Wilson ve ark. (2017) tarafından incelenen bir olgudur.
Adam, ek bellek yükü getirir: parametre vektörü ile aynı boyutta iki ek vektör (m ve v) saklanmalıdır, bu da optimize edici durumunu düz SGD'ye göre ikiye katlar.
Küresel öğrenme oranı α'ya karşı hassasiyet devam eder: yanlış seçilmiş bir α, parametre başına adaptasyona rağmen eğitim kararsızlığına veya son derece yavaş yakınsamaya neden olabilir.
Adam'da ağırlık azalması, adaptif ölçeklendirme azalma terimiyle etkileşime girdiği için L2 düzenlileştirmesine eşdeğer değildir; AdamW (Loshchilov & Hutter, 2019), ağırlık azalmasını gradyan güncellemesinden ayırarak bunu düzeltir.
Ağırlık azalmasını adaptif gradyan ölçeklendirmesinden doğru bir şekilde ayırmadan uygulayan AdamW yerine standart Adam'da düzenlileştirme için ağırlık azalması kullanmak.

SSS

Adam, daha az öğrenme oranı ayarlaması gerektirdiği ve mimariler arasında güvenilir bir şekilde yakınsadığı için neredeyse her zaman daha güvenli varsayılan seçimdir. Momentumlu SGD, öğrenme oranı çizelgesi dikkatlice ayarlandığında (örneğin, tek döngülü veya kosinüs tavlama) bazı görüntü sınıflandırma kıyaslamalarında biraz daha iyi genelleşme sağlayabilir, ancak yapılandırmak daha fazla çaba gerektirir. NLP ve transformatör modelleri için AdamW standarttır.

Adam ve AdamW arasındaki fark nedir?

Standart Adam, λθ'yı adaptif ölçeklendirmeden önce gradyana ekleyerek L2 ağırlık azalması uygular, bu da etkin düzenlileştirme gücünün gradyanın büyüklüğüne göre parametre başına değiştiği anlamına gelir. AdamW, ağırlık azalmasını gradyan güncellemesinden ayırır, adaptif adımdan sonra λθ'yı doğrudan parametreden çıkarır. Bu ayrımın düzenlileştirmeyi iyileştirdiği gösterilmiştir ve büyük önceden eğitilmiş modellerin ince ayarı için önerilen varyanttır.

Adam neden bazen SGD'den daha kötü genelleşiyor?

Wilson ve ark. (2017), adaptif gradyan yöntemlerinin SGD ile momentumdan daha az iyi genelleşen daha keskin minimumlara yakınsayabileceğini ampirik olarak göstermiştir. Temel neden, parametre başına ölçeklendirmenin Adam'ın kayıp yüzeyinin belirli yönlerine daha agresif bir şekilde uymasına izin verebilmesidir. Bu etki, görüntü sınıflandırmada en belirgindir ve seyrek gradyanların adaptifliği daha faydalı hale getirdiği NLP görevlerinde daha az belirgindir.

Adam için öğrenme oranını nasıl ayarlamalıyım?

Varsayılan α=0.001, birçok durumda sıfırdan eğitim için iyi çalışır, ancak kısa bir öğrenme oranı aralığı testi ile doğrulamaya değer. Önceden eğitilmiş transformatörlerin ince ayarı için, 1e-5 ila 5e-5 aralığındaki değerler tipiktir. Adam'ı bir ısınma çizelgesiyle (ilk %5-10 eğitim adımı için α'yı doğrusal olarak artırma) birleştirmek ve ardından kosinüs bozunumu, hem bilgisayar görüşü hem de NLP görevleri için sağlam bir stratejidir.

Momentumlu SGD veya Adam'ı kendi derin öğrenme modelinizde doğrudan MethodMind'da çalıştırın — mimarinizi, mini yığın boyutunuzu ve optimize edici hiperparametrelerinizi (α, β1, β2, ε ve isteğe bağlı ağırlık azalması) yapılandırın, ardından eğitim ve doğrulama kaybı eğrilerini, gradyan normlarını ve parametre grubu başına etkili öğrenme oranlarını eğitim dönemleri boyunca izleyin.

Kaynaklar

Kingma, D. P., & Ba, J. (2015). Adam: A method for stochastic optimization. International Conference on Learning Representations (ICLR 2015). arXiv:1412.6980. link ↗
Rumelhart, D. E., Hinton, G. E., & Williams, R. J. (1986). Learning representations by back-propagating errors. Nature, 323, 533–536. DOI: 10.1038/323533a0 ↗
Polyak, B. T. (1964). Some methods of speeding up the convergence of iteration methods. USSR Computational Mathematics and Mathematical Physics, 4(5), 1–17. DOI: 10.1016/0041-5553(64)90137-5 ↗
Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning (Ch. 8: Optimization for Training Deep Models). MIT Press. ISBN: 978-0-262-03561-3

Bu sayfayı kaynak gösterin

ScholarGate. (2026, June 3). Stochastic Gradient Descent with Momentum and Adaptive Moment Estimation (Adam). ScholarGate. https://scholargate.app/tr/deep-learning/stochastic-gradient-descent-with-momentum-adam-optimizer

Hangi yöntem?

Bu yöntemi en yakın akrabalarının yanına koyup yan yana okuyun — kütüphane kitapları masaya serer; seçim sizindir.

Batch NormalizationDerin öğrenme↔ karşılaştır

Yan yana karşılaştır →

Benzer yöntemler

Stokastik Optimizasyon Stokastik Gradyan İnişi (SGD)Batch Normalization Online Lojistik Regresyon Çekişmeli Eğitim İnce Ayarlanmış Transformer İnce Ayarlı Evrişimsel Sinir Ağı Dropout

İlgili referans kavramlar

Geriye Yayılım ve Optimizasyon Stokastik Optimizasyon Hiperparametre Optimizasyonu Derin Öğrenme Düzenlileştirme ve Model Karmaşıklığı Yanlılık-Varyans ve Aşırı Uyum

Bu sayfada bir hata mı var? Bildir / düzeltme öner →

Stochastic Gradient Descent with Momentum and Adaptive Moment Estimation (Adam)

Ayrıca şöyle bilinir: Adam, Adam optimizer, SGD with momentum, momentum SGD, adaptive gradient optimizer, first-order stochastic optimizer

Araçlar & kaynaklar

Slaytları indir

Öğren & keşfet

Tam yöntemi oku

Yalnızca üyeler

Bu bölümü okumak için ücretsiz hesapla giriş yapın.

Giriş yap

Yöntem haritası

İlişkili yöntemlerin komşuluğu — keşfetmek için bir düğüm seçin.

SGD with Momentum / Adam Optimizer

Batch Normalization

Ne zaman kullanılır

Parametre başına adaptif öğrenme oranları, her katman veya parametre grubu için ayrı oranları elle ayarlama ihtiyacını ortadan kaldırır.

Güçlü yönler & sınırlılıklar

Güçlü yönler

Hesaplama açısından verimli: bellek ve adım başına hesaplama maliyeti O(θ), parametre sayısına göre doğrusaldır.
Sapma düzeltmesi, Adam'ı ayarlanmamış üstel hareketli ortalamaların aksine, ilk iterasyondan itibaren iyi davranır hale getirir.
Geniş bir hiperparametre seçimi yelpazesine karşı dayanıklıdır; varsayılanlar (α=0.001, β1=0.9, β2=0.999, ε=1e-8) birçok mimaride iyi çalışır.
Seyrek gradyanları etkili bir şekilde işler, bu da onu herhangi bir verilen mini yığında sıfır gradyan alan birçok ağırlığın olduğu gömme katmanları ve NLP modelleri için uygun hale getirir.
Kosinüs tavlama veya tek döngülü bir çizelgeye sahip Momentumlu SGD, bazı görüntü sınıflandırma kıyaslamalarında en gelişmiş genellemeyi elde eder ve hesaplama bütçesi kapsamlı ayarlamaya izin verdiğinde Adam'a güçlü bir alternatif sunar.
Adam, bazı dışbükey olmayan ayarlarda suboptimal çözümlere yakınsayabilir; Reddi ve ark. (2018), orijinal Adam algoritmasının yakınsamada başarısız olduğu durumları belirlemiş ve bir düzeltme olarak AMSGrad'ı önermiştir.

Sınırlılıklar

Adaptif öğrenme oranları, Adam'ın bazı görüntü sınıflandırma kıyaslamalarında dikkatlice ayarlanmış Momentumlu SGD'den biraz daha kötü genelleşmesine neden olabilir, bu Wilson ve ark. (2017) tarafından incelenen bir olgudur.
Adam, ek bellek yükü getirir: parametre vektörü ile aynı boyutta iki ek vektör (m ve v) saklanmalıdır, bu da optimize edici durumunu düz SGD'ye göre ikiye katlar.
Küresel öğrenme oranı α'ya karşı hassasiyet devam eder: yanlış seçilmiş bir α, parametre başına adaptasyona rağmen eğitim kararsızlığına veya son derece yavaş yakınsamaya neden olabilir.
Adam'da ağırlık azalması, adaptif ölçeklendirme azalma terimiyle etkileşime girdiği için L2 düzenlileştirmesine eşdeğer değildir; AdamW (Loshchilov & Hutter, 2019), ağırlık azalmasını gradyan güncellemesinden ayırarak bunu düzeltir.
Ağırlık azalmasını adaptif gradyan ölçeklendirmesinden doğru bir şekilde ayırmadan uygulayan AdamW yerine standart Adam'da düzenlileştirme için ağırlık azalması kullanmak.

SSS

Adam ve AdamW arasındaki fark nedir?

Adam neden bazen SGD'den daha kötü genelleşiyor?

Adam için öğrenme oranını nasıl ayarlamalıyım?

Kaynaklar

Kingma, D. P., & Ba, J. (2015). Adam: A method for stochastic optimization. International Conference on Learning Representations (ICLR 2015). arXiv:1412.6980. link ↗
Rumelhart, D. E., Hinton, G. E., & Williams, R. J. (1986). Learning representations by back-propagating errors. Nature, 323, 533–536. DOI: 10.1038/323533a0 ↗
Polyak, B. T. (1964). Some methods of speeding up the convergence of iteration methods. USSR Computational Mathematics and Mathematical Physics, 4(5), 1–17. DOI: 10.1016/0041-5553(64)90137-5 ↗
Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning (Ch. 8: Optimization for Training Deep Models). MIT Press. ISBN: 978-0-262-03561-3

Bu sayfayı kaynak gösterin

Hangi yöntem?

Bu yöntemi en yakın akrabalarının yanına koyup yan yana okuyun — kütüphane kitapları masaya serer; seçim sizindir.

Batch NormalizationDerin öğrenme↔ karşılaştır

Yan yana karşılaştır →