Sinirsel Dil Modelleri ve Kelime Gömülüleri
Anlamı geometri olarak kodlayan, word2vec gömülülerinden BERT gibi bağlamsal gösterimlere kadar, kelimelerin ve bağlamların yoğun vektör gösterimlerinin ham metinden öğrenilmesi.
Tanım
Kelime gömülüsü, bir kelimenin anlamını temsil eden yoğun, gerçek değerli bir vektördür ve dağılımsal benzerliğin vektör uzayı yakınlığına yansıması için öğrenilir; bağlamsal gömülüler ise bunu, çevredeki metne bağlı olan gösterimlere genişletmektedir.
Kapsam
Dilin dağıtılmış ve sinirsel gösterimlerini kapsar: dağılımsal hipotez, word2vec ve GloVe gibi statik kelime gömülüleri, sinirsel dil modelleri ve BERT gibi önceden eğitilmiş dönüştürücülerden (transformer) elde edilen bağlamsal gömülüler. Gösterimlerin nasıl eğitildiği, değerlendirildiği ve sonraki görevlere nasıl aktarıldığı ele alınmaktadır. Dönüştürücü mimarisi detayları ve üretimi ayrı bir konuda incelenmektedir.
Temel sorular
- Dağılımsal hipotez nedir ve gömülüler bunu nasıl işlevselleştirmektedir?
- word2vec, kelime vektörlerini birlikte geçme (co-occurrence) verilerinden nasıl öğrenmektedir?
- Bağlamsal gömülüler statik olanlardan nasıl farklılaşmaktadır?
- Ön eğitim ve transfer öğrenimi, Doğal Dil İşleme (NLP) alanını neden dönüştürmüştür?
Anahtar kavramlar
- dağılımsal hipotez
- kelime gömülüsü
- word2vec
- skip-gram
- bağlamsal gömülü
- ön eğitim ve ince ayar
- transfer öğrenimi
- maskeli dil modellemesi
Temel kuramlar
- Dağılımsal hipotez
- Benzer bağlamlarda geçen kelimelerin benzer anlamlara sahip olduğu fikridir ve birlikte geçme istatistiklerinden anlam türeterek tüm gömme yöntemlerinin temelini oluşturmaktadır.
- Bağlamsal ön eğitim
- BERT'te olduğu gibi, büyük etiketlenmemiş metinler üzerinde derin çift yönlü modellerin önceden eğitilmesiyle, çok az ince ayar ile birçok sonraki göreve aktarılabilen bağlama duyarlı gösterimler üretilmesidir.
Tarihçe
Harris'in dağılımsal hipotezi ilk olarak sayım tabanlı vektör uzayı modelleriyle, ardından Bengio'nun sinirsel dil modeli (2003) ve Mikolov'un verimli word2vec'i (2013) ile işlevselleştirilmiştir. ELMo ve BERT gibi bağlamsal modellerin 2018-2019'da ortaya çıkışı, ön eğitim ve ince ayarı baskın bir paradigma haline getirmiştir.
Tartışmalar
- Gömülüler aslında neyi kodlamaktadır?
- Öğrenilen gösterimlerin, eğitim verilerinde bulunan gerçek anlamsal ve sözdizimsel yapıyı mı yoksa sadece birlikte geçme düzenliliklerini ve yanlılıklarını mı yakaladığı, yorumlanabilirlik için merkezi bir sorudur.
Öne çıkan isimler
- Yoshua Bengio
- Tomas Mikolov
- Jacob Devlin
- Zellig Harris
İlgili konular
Temel eserler
- bengio2003
- mikolov2013
- devlin2019
Sıkça sorulan sorular
- Statik ve bağlamsal gömülüler arasındaki fark nedir?
- Statik bir gömülü, bir kelimeye bağlamdan bağımsız olarak tek bir sabit vektör atar, bu nedenle 'banka' kelimesinin tek bir gösterimi bulunmaktadır. Bağlamsal bir gömülü ise her geçiş için farklı bir vektör üreterek, bir nehir kenarını finansal bir bankadan ayırmaktadır.