Geriye Yayılım ve Optimizasyon
Geriye yayılım, bir ağın kaybının ağırlıklarına göre gradyanını verimli bir şekilde hesaplamaktadır ve gradyan tabanlı optimize ediciler bu gradyanı ağı eğitmek için kullanmaktadır.
Tanım
Geriye yayılım, zincir kuralını kullanarak hata sinyallerini katmanlar aracılığıyla geriye doğru yayarak bir sinir ağındaki her ağırlığa göre bir kayıp fonksiyonunun gradyanını hesaplayan bir algoritmadır; optimizasyon ise kaybı azaltmak için ağırlıkları, genellikle stokastik gradyan inişi ile güncellemektedir.
Kapsam
Bu konu, derin ağların nasıl eğitildiğini kapsamaktadır: zincir kuralının katman katman gradyanları hesaplamak için bir uygulaması olarak geriye yayılım algoritması, stokastik gradyan inişi ve mini-parti (mini-batch) formu, momentum ve adaptif öğrenme oranı yöntemleri ile kaybolan ve patlayan gradyanlar, öğrenme oranı seçimi ve dışbükey olmayan kayıp yüzeylerinde yakınsama gibi pratik zorluklar ele alınmaktadır.
Temel sorular
- Geriye yayılım gradyanları nasıl verimli bir şekilde hesaplar?
- Büyük veri kümeleri için neden stokastik gradyan inişi tercih edilir?
- Momentum ve adaptif yöntemler eğitimi nasıl hızlandırır?
- Kaybolan veya patlayan gradyanlara ne sebep olur ve bunlar nasıl hafifletilir?
Temel kuramlar
- Zincir kuralı aracılığıyla geriye yayılım
- Zincir kuralını çıktıdan geriye doğru uygulayarak, algoritma ara sonuçları yeniden kullanarak tüm ağırlık gradyanlarını ileri geçişle orantılı bir sürede hesaplar, bu da büyük ağların eğitimini mümkün kılmaktadır.
- Stokastik gradyan inişi
- Küçük rastgele partilerden gradyanı tahmin etmek, her güncellemeyi ucuz hale getirir ve faydalı gürültü ekler, bu da çok büyük veri kümeleri üzerinde eğitime olanak tanır ve genellikle genellemeyi iyileştirir.
- Adaptif ve momentum yöntemleri
- Momentum, inişi yumuşatmak için geçmiş gradyanları biriktirir ve adaptif yöntemler, her parametre için adım boyutunu ölçeklendirir; her ikisi de derin ağlara özgü kötü koşullandırılmış kayıp yüzeylerinde yakınsamayı hızlandırmaktadır.
Klinik önem
Stokastik gradyan inişi ile geriye yayılım, temelde tüm modern derin öğrenmenin arkasındaki itici güçtür; gradyanların nasıl aktığını anlamak, derinliğin tarihsel olarak neden eğitilmesinin zor olduğunu ve aktivasyonlar, başlatma ve optimize edicilerdeki yeniliklerin çok derin ağları nasıl pratik hale getirdiğini açıklamaktadır.
Tarihçe
Geriye yayılım, Werbos'un 1974 tezini de içerecek şekilde çeşitli bağlamlarda türetilmiştir ve 1986'da Rumelhart, Hinton ve Williams tarafından öne çıkarılmıştır. Stokastik gradyan inişi ve daha sonra momentum ile adaptif öğrenme oranı optimize edicileri standart eğitim prosedürleri haline gelmiş, kaybolan gradyanların ele alınması ise derin ve tekrarlayan ağların eğitimi için anahtar olmuştur.
Öne çıkan isimler
- David Rumelhart
- Geoffrey Hinton
- Ronald Williams
- Paul Werbos
İlgili konular
Temel eserler
- rumelhart1986
- goodfellow2016
- bishop2006
Sıkça sorulan sorular
- Geriye yayılım aslında ne hesaplar?
- Her ağırlığa göre kaybın gradyanını, yani hatayı azaltmak için her ağırlığın ne kadar değişmesi gerektiğini hesaplar. Bunu, zincir kuralını kullanarak hata sinyallerini çıktı katmanından girdi katmanına geriye doğru yayarak verimli bir şekilde yapmaktadır.
- Neden tüm veriyi bir kerede kullanmak yerine küçük partiler halinde eğitim yapılır?
- Her güncelleme için tüm veri kümesini kullanmak maliyetli ve gereksizdir. Mini-parti (mini-batch) stokastik gradyan inişi, gradyanı küçük bir rastgele örnekten tahmin ederek her adımı ucuz hale getirir, çok daha fazla güncellemeye olanak tanır ve kötü çözümlerden kaçmaya yardımcı olabilecek gürültü ekler.