Diziden Diziye Modeller ve Transformatörler
Bir girdi dizisini bir çıktı dizisine eşleyen nöral mimariler — tekrarlayan kodlayıcı-kod çözücüler, dikkat mekanizması ve transformatör — çeviri, özetleme ve modern üretken dil modellerinin temelini oluşturmaktadır.
Tanım
Diziden diziye bir model, bir girdi dizisini kodlayan ve bir çıktı dizisi üreten, genellikle ikisini hizalamak için bir dikkat mekanizması kullanan bir nöral ağdır.
Kapsam
Mevcut Doğal Dil İşleme (NLP) için merkezi olan nöral dizi modelleme mimarilerini kapsamaktadır: LSTM'ler dahil tekrarlayan ağlar, kodlayıcı-kod çözücü çerçevesi, dikkat mekanizmaları ve transformatör. Bu modellerin nasıl eğitildiği ve kod çözme (decoding) işlemlerinin nasıl yapıldığı ile transformatörün öz-dikkat mekanizmasının büyük dil modellerine ölçeklenmeyi nasıl mümkün kıldığı ele alınmaktadır. Gömülü temsiller (embeddings) ve belirli uygulamalar ilgili diğer konularda ele alınmaktadır.
Temel sorular
- Kodlayıcı-kod çözücü çerçevesi bir diziyi diğerine nasıl dönüştürmektedir?
- Dikkat mekanizması neden sabit boyutlu kodlamaların darboğazını aşmıştır?
- Öz-dikkat mekanizması ne hesaplamaktadır ve transformatör neden bu kadar ölçeklenebilirdir?
- LSTM'ler ve transformatörler nasıl eğitilmekte ve üretim için nasıl kullanılmaktadır?
Anahtar kavramlar
- tekrarlayan nöral ağ
- LSTM
- kodlayıcı-kod çözücü
- dikkat mekanizması
- öz-dikkat
- transformatör
- konumsal kodlama
- kod çözme
Temel kuramlar
- Uzun kısa süreli bellek
- Kaybolan gradyan sorununu hafifleten, kapılı bellek hücrelerine sahip tekrarlayan bir mimari olup, dizilerdeki uzun menzilli bağımlılıkların öğrenilmesini sağlamaktadır.
- Dikkat mekanizmalı kodlayıcı-kod çözücü
- Bir girdiyi bir kodlayıcı ve kod çözücü aracılığıyla bir çıktı dizisine eşleme olup, dikkat mekanizması kod çözücünün her adımda ilgili girdi konumlarına odaklanmasını sağlamaktadır.
- Öz-dikkat transformatörü
- Tekrarlamayı öz-dikkat mekanizması ile değiştirerek her bir jetonun (token) diğer her bir jetona doğrudan dikkat etmesini sağlamakta, bu da paralel eğitime ve büyük dil modellerinin arkasındaki ölçeklenmeye olanak tanımaktadır.
Tarihçe
LSTM'ler (1997), tekrarlayan ağları uzun diziler için pratik hale getirmiştir. Dikkat mekanizmalı diziden diziye öğrenme (2014–2015), makine çevirisini dönüştürmüş ve 2017 transformatörü, tekrarlamayı öz-dikkat mekanizması ile değiştirerek, alanı domine eden büyük önceden eğitilmiş üretken modelleri mümkün kılmıştır.
Tartışmalar
- Tekrarlama ve dikkat mekanizması
- Sıralı tekrarlamanın mı yoksa tamamen paralel dikkat mekanizmasının mı dil için daha iyi bir endüktif önyargı olduğu tartışılmaktadır; transformatörler ölçeklenebilirlik konusunda büyük ölçüde üstün gelmiş olsa da, verimlilik endişeleri alternatif mimarileri canlı tutmaktadır.
Öne çıkan isimler
- Ashish Vaswani
- Ilya Sutskever
- Sepp Hochreiter
- Jürgen Schmidhuber
İlgili konular
Temel eserler
- hochreiter1997
- sutskever2014
- vaswani2017
Sıkça sorulan sorular
- Dikkat mekanizması hangi sorunu çözmektedir?
- Daha önceki kodlayıcı-kod çözücü modelleri, tüm bir girdiyi tek bir sabit vektöre sıkıştırmaktaydı, bu da uzun diziler için bilgi kaybına yol açmaktaydı. Dikkat mekanizması, kod çözücünün tüm kodlayıcı durumlarına geri bakmasına ve her çıktı adımında en ilgili olanları ağırlıklandırmasına olanak tanımaktadır.