ScholarGate
Asistan

Diziden Diziye Modeller ve Transformatörler

Bir girdi dizisini bir çıktı dizisine eşleyen nöral mimariler — tekrarlayan kodlayıcı-kod çözücüler, dikkat mekanizması ve transformatör — çeviri, özetleme ve modern üretken dil modellerinin temelini oluşturmaktadır.

PaperMind ile konu bulYakındaMakale ve konu bul
Tools & resources
Slaytları indir
Learn & explore
VideoYakında

Tanım

Diziden diziye bir model, bir girdi dizisini kodlayan ve bir çıktı dizisi üreten, genellikle ikisini hizalamak için bir dikkat mekanizması kullanan bir nöral ağdır.

Kapsam

Mevcut Doğal Dil İşleme (NLP) için merkezi olan nöral dizi modelleme mimarilerini kapsamaktadır: LSTM'ler dahil tekrarlayan ağlar, kodlayıcı-kod çözücü çerçevesi, dikkat mekanizmaları ve transformatör. Bu modellerin nasıl eğitildiği ve kod çözme (decoding) işlemlerinin nasıl yapıldığı ile transformatörün öz-dikkat mekanizmasının büyük dil modellerine ölçeklenmeyi nasıl mümkün kıldığı ele alınmaktadır. Gömülü temsiller (embeddings) ve belirli uygulamalar ilgili diğer konularda ele alınmaktadır.

Temel sorular

  • Kodlayıcı-kod çözücü çerçevesi bir diziyi diğerine nasıl dönüştürmektedir?
  • Dikkat mekanizması neden sabit boyutlu kodlamaların darboğazını aşmıştır?
  • Öz-dikkat mekanizması ne hesaplamaktadır ve transformatör neden bu kadar ölçeklenebilirdir?
  • LSTM'ler ve transformatörler nasıl eğitilmekte ve üretim için nasıl kullanılmaktadır?

Anahtar kavramlar

  • tekrarlayan nöral ağ
  • LSTM
  • kodlayıcı-kod çözücü
  • dikkat mekanizması
  • öz-dikkat
  • transformatör
  • konumsal kodlama
  • kod çözme

Temel kuramlar

Uzun kısa süreli bellek
Kaybolan gradyan sorununu hafifleten, kapılı bellek hücrelerine sahip tekrarlayan bir mimari olup, dizilerdeki uzun menzilli bağımlılıkların öğrenilmesini sağlamaktadır.
Dikkat mekanizmalı kodlayıcı-kod çözücü
Bir girdiyi bir kodlayıcı ve kod çözücü aracılığıyla bir çıktı dizisine eşleme olup, dikkat mekanizması kod çözücünün her adımda ilgili girdi konumlarına odaklanmasını sağlamaktadır.
Öz-dikkat transformatörü
Tekrarlamayı öz-dikkat mekanizması ile değiştirerek her bir jetonun (token) diğer her bir jetona doğrudan dikkat etmesini sağlamakta, bu da paralel eğitime ve büyük dil modellerinin arkasındaki ölçeklenmeye olanak tanımaktadır.

Tarihçe

LSTM'ler (1997), tekrarlayan ağları uzun diziler için pratik hale getirmiştir. Dikkat mekanizmalı diziden diziye öğrenme (2014–2015), makine çevirisini dönüştürmüş ve 2017 transformatörü, tekrarlamayı öz-dikkat mekanizması ile değiştirerek, alanı domine eden büyük önceden eğitilmiş üretken modelleri mümkün kılmıştır.

Tartışmalar

Tekrarlama ve dikkat mekanizması
Sıralı tekrarlamanın mı yoksa tamamen paralel dikkat mekanizmasının mı dil için daha iyi bir endüktif önyargı olduğu tartışılmaktadır; transformatörler ölçeklenebilirlik konusunda büyük ölçüde üstün gelmiş olsa da, verimlilik endişeleri alternatif mimarileri canlı tutmaktadır.

Öne çıkan isimler

  • Ashish Vaswani
  • Ilya Sutskever
  • Sepp Hochreiter
  • Jürgen Schmidhuber

İlgili konular

Temel eserler

  • hochreiter1997
  • sutskever2014
  • vaswani2017

Sıkça sorulan sorular

Dikkat mekanizması hangi sorunu çözmektedir?
Daha önceki kodlayıcı-kod çözücü modelleri, tüm bir girdiyi tek bir sabit vektöre sıkıştırmaktaydı, bu da uzun diziler için bilgi kaybına yol açmaktaydı. Dikkat mekanizması, kod çözücünün tüm kodlayıcı durumlarına geri bakmasına ve her çıktı adımında en ilgili olanları ağırlıklandırmasına olanak tanımaktadır.

Bu kavram için yöntemler

İlgili kavramlar