Dikkat mekanizması hangi sorunu çözmektedir?

Daha önceki kodlayıcı-kod çözücü modelleri, tüm bir girdiyi tek bir sabit vektöre sıkıştırmaktaydı, bu da uzun diziler için bilgi kaybına yol açmaktaydı. Dikkat mekanizması, kod çözücünün tüm kodlayıcı durumlarına geri bakmasına ve her çıktı adımında en ilgili olanları ağırlıklandırmasına olanak tanımaktadır.

Diziden Diziye Modeller ve Transformatörler

Bir girdi dizisini bir çıktı dizisine eşleyen nöral mimariler — tekrarlayan kodlayıcı-kod çözücüler, dikkat mekanizması ve transformatör — çeviri, özetleme ve modern üretken dil modellerinin temelini oluşturmaktadır.

PaperMind ile konu bulYakındaMakale ve konu bul

Tools & resources

Slaytları indir

Learn & explore

VideoYakında

Tanım

Diziden diziye bir model, bir girdi dizisini kodlayan ve bir çıktı dizisi üreten, genellikle ikisini hizalamak için bir dikkat mekanizması kullanan bir nöral ağdır.

Kapsam

Mevcut Doğal Dil İşleme (NLP) için merkezi olan nöral dizi modelleme mimarilerini kapsamaktadır: LSTM'ler dahil tekrarlayan ağlar, kodlayıcı-kod çözücü çerçevesi, dikkat mekanizmaları ve transformatör. Bu modellerin nasıl eğitildiği ve kod çözme (decoding) işlemlerinin nasıl yapıldığı ile transformatörün öz-dikkat mekanizmasının büyük dil modellerine ölçeklenmeyi nasıl mümkün kıldığı ele alınmaktadır. Gömülü temsiller (embeddings) ve belirli uygulamalar ilgili diğer konularda ele alınmaktadır.

Temel sorular

Kodlayıcı-kod çözücü çerçevesi bir diziyi diğerine nasıl dönüştürmektedir?
Dikkat mekanizması neden sabit boyutlu kodlamaların darboğazını aşmıştır?
Öz-dikkat mekanizması ne hesaplamaktadır ve transformatör neden bu kadar ölçeklenebilirdir?
LSTM'ler ve transformatörler nasıl eğitilmekte ve üretim için nasıl kullanılmaktadır?

Anahtar kavramlar

tekrarlayan nöral ağ
LSTM
kodlayıcı-kod çözücü
dikkat mekanizması
öz-dikkat
transformatör
konumsal kodlama
kod çözme

Temel kuramlar

Uzun kısa süreli bellek: Kaybolan gradyan sorununu hafifleten, kapılı bellek hücrelerine sahip tekrarlayan bir mimari olup, dizilerdeki uzun menzilli bağımlılıkların öğrenilmesini sağlamaktadır.
Dikkat mekanizmalı kodlayıcı-kod çözücü: Bir girdiyi bir kodlayıcı ve kod çözücü aracılığıyla bir çıktı dizisine eşleme olup, dikkat mekanizması kod çözücünün her adımda ilgili girdi konumlarına odaklanmasını sağlamaktadır.
Öz-dikkat transformatörü: Tekrarlamayı öz-dikkat mekanizması ile değiştirerek her bir jetonun (token) diğer her bir jetona doğrudan dikkat etmesini sağlamakta, bu da paralel eğitime ve büyük dil modellerinin arkasındaki ölçeklenmeye olanak tanımaktadır.

Tarihçe

LSTM'ler (1997), tekrarlayan ağları uzun diziler için pratik hale getirmiştir. Dikkat mekanizmalı diziden diziye öğrenme (2014–2015), makine çevirisini dönüştürmüş ve 2017 transformatörü, tekrarlamayı öz-dikkat mekanizması ile değiştirerek, alanı domine eden büyük önceden eğitilmiş üretken modelleri mümkün kılmıştır.

Tartışmalar

Tekrarlama ve dikkat mekanizması: Sıralı tekrarlamanın mı yoksa tamamen paralel dikkat mekanizmasının mı dil için daha iyi bir endüktif önyargı olduğu tartışılmaktadır; transformatörler ölçeklenebilirlik konusunda büyük ölçüde üstün gelmiş olsa da, verimlilik endişeleri alternatif mimarileri canlı tutmaktadır.

Öne çıkan isimler

Ashish Vaswani
Ilya Sutskever
Sepp Hochreiter
Jürgen Schmidhuber

İlgili konular

Temel eserler

hochreiter1997
sutskever2014
vaswani2017

Sıkça sorulan sorular

Dikkat mekanizması hangi sorunu çözmektedir?: Daha önceki kodlayıcı-kod çözücü modelleri, tüm bir girdiyi tek bir sabit vektöre sıkıştırmaktaydı, bu da uzun diziler için bilgi kaybına yol açmaktaydı. Dikkat mekanizması, kod çözücünün tüm kodlayıcı durumlarına geri bakmasına ve her çıktı adımında en ilgili olanları ağırlıklandırmasına olanak tanımaktadır.