Derin Öğrenme
Derin öğrenme, verilerin hiyerarşik temsillerini öğrenmek amacıyla çok sayıda katmana sahip sinir ağlarını eğitmekte olup, görüntü, konuşma ve dil alanlarında son teknoloji sonuçlar elde edilmesini sağlamaktadır.
Tanım
Derin öğrenme, makine öğreniminin bir dalı olup, verilerin artan soyutlama seviyelerinde temsillerini öğrenmek amacıyla çok sayıda doğrusal olmayan işlem katmanına sahip sinir ağlarını kullanmaktadır; parametreleri ise bir kayıp fonksiyonu (loss function) üzerinde gradyan inişi (gradient descent) ile uçtan uca ayarlanmaktadır.
Kapsam
Bu alan, çok katmanlı sinir ağlarını ve bunları büyük ölçekte eğitilebilir kılan teknikleri kapsamaktadır: ileri beslemeli, evrişimli ve tekrarlayan ağ mimarileri, geri yayılım algoritması ve gradyan tabanlı optimizasyon, dropout gibi düzenlileştirme (regularization) yöntemleri ve derin üretken modeller. Derinliğin neden bileşik özelliklerin öğrenilmesini sağladığı ve çok derin modellerin eğitiminde ne gibi zorlukların ortaya çıktığı konularını ele almaktadır.
Alt konular
Temel sorular
- Neden çok sayıda katman hiyerarşik özelliklerin öğrenilmesini sağlamaktadır?
- Gradyan tabanlı eğitim derin ağlar için nasıl işler hale getirilmektedir?
- Hangi mimariler görüntüler, diziler ve diğer veri türleri için uygundur?
- Düzenlileştirme (regularization) ve optimizasyon seçimleri genelleme (generalization) yeteneğini nasıl etkilemektedir?
Temel kuramlar
- Hiyerarşik temsil öğrenimi
- Katmanları üst üste yığmak, bir ağın basit özellikleri giderek daha soyut olanlara dönüştürmesini sağlamaktadır; böylece erken katmanlar kenarları veya sesleri algılarken, daha sonraki katmanlar nesneleri veya kelimeleri algılamakta ve bu öğrenim verilerden otomatik olarak gerçekleşmektedir.
- Geri yayılım (backpropagation) ile uçtan uca eğitim
- Tüm ağ, hata gradyanlarını katmanları boyunca geriye doğru yayarak birlikte optimize edilmekte, bu da özellik çıkarımı ve tahminin elle tasarlanmak yerine birlikte öğrenilmesini sağlamaktadır.
- Derinlik ve ifade verimliliği
- Derin ağlar, belirli fonksiyonları sığ (shallow) ağlara göre çok daha kompakt bir şekilde temsil edebilmektedir; bu durum, büyük veri kümeleri ve hesaplama gücüyle birlikte ampirik başarılarının temelini oluşturmaktadır.
Klinik önem
Derin öğrenme, görüntü ve konuşma tanıma, makine çevirisi ve büyük dil modelleri alanlarında çığır açmış olup, çağdaş yapay zekanın büyük bir kısmının temelini oluşturmaktadır; büyük veri kümelerine ve önemli hesaplama gücüne bağımlılığı ile ortaya çıkan modellerin şeffaf olmaması (opacity), uygulanmasında merkezi pratik ve etik hususlar olarak değerlendirilmektedir.
Tarihçe
Sinir ağları, perceptron'a ve 1986'da popülerleşen geri yayılıma (backpropagation) dayanmaktadır; ancak derin ağların eğitimi 2000'li yılların ortalarına kadar zordu. Başlatma (initialization), aktivasyon fonksiyonları, büyük etiketli veri kümeleri ve grafik işlemci hesaplamalarındaki gelişmeler, 2012 civarında derin öğrenme devrimini mümkün kılarak bilgisayar görüşü, konuşma ve doğal dil işlemeyi yeniden şekillendirmiştir.
Tartışmalar
- Ölçeklendirme ve yeni fikirler
- Son zamanlardaki ilerlemenin çoğu, daha fazla veri ve hesaplama gücüyle daha büyük modellerin eğitilmesinden kaynaklanmaktadır; bu durum, yalnızca ölçeklendirmenin ne kadar ileri gidebileceği ile yeni mimari veya algoritmik fikirlere olan ihtiyaç arasındaki tartışmayı tetiklemektedir.
Öne çıkan isimler
- Geoffrey Hinton
- Yann LeCun
- Yoshua Bengio
- Juergen Schmidhuber
İlgili konular
Temel eserler
- goodfellow2016
- lecun2015
- bengio2013
Sıkça sorulan sorular
- Öğrenmeyi derin kılan nedir?
- Derinlik, girdi ve çıktı arasındaki ardışık doğrusal olmayan dönüşüm katmanlarının sayısını ifade etmektedir. Her katman bir öncekinin özelliklerini temel almakta, bu nedenle derin bir ağ, tek bir doğrudan eşleme yerine bir temsil hiyerarşisi öğrenmektedir.
- Derin öğrenme neden ancak yakın zamanda yükselişe geçmiştir?
- Temel fikirler on yıllardır mevcuttu; ancak derin ağların eğitimi büyük etiketli veri kümeleri, grafik işlemciler gibi hızlı paralel donanımlar ve daha iyi başlatma (initialization) ve aktivasyon fonksiyonları gibi teknikler gerektirmekteydi. Bunlar 2012 civarında bir araya gelerek algı görevlerinde önemli kazanımlar elde edilmesini sağlamıştır.