Şaşkınlık (perplexity) nedir?

Şaşkınlık, bir dil modelinin ayrılmış metin karşısında ne kadar 'şaşırdığını' ölçen bir metriktir; daha düşük şaşkınlık değeri, modelin gözlemlenen sözcüklere daha yüksek olasılık atadığını ve dolayısıyla daha iyi bir uyum sağladığını belirtir.

Dil modellemesi neden düzeltmeye (smoothing) ihtiyaç duyar?

Herhangi bir sonlu derlem (corpus), birçok geçerli sözcük dizisini içermemektedir; bu durumda saf bir model bu dizilere sıfır olasılık atayacaktır. Düzeltme, görülmemiş olaylara küçük bir olasılık kütlesini yeniden dağıtarak modelin yeni metinleri işleyebilmesini sağlamaktadır.

Dil Modellemesi

Sözcük dizilerine olasılık atama işlemi, sistemlerin metinleri tahmin etmesini, puanlamasını ve üretmesini sağlayan temel bir görevdir; bu görev, klasik n-gram sayıcılardan nöral dil modellerine kadar uzanan bir yelpazeyi kapsamaktadır.

PaperMind ile konu bulYakındaMakale ve konu bul

Tools & resources

Slaytları indir

Learn & explore

VideoYakında

Tanım

Bir dil modeli, sözcük veya belirteç (token) dizileri üzerindeki bir olasılık dağılımıdır ve genellikle her bir belirtecin kendinden önceki bağlamından tahmin edilmesiyle tanımlanır.

Kapsam

Dil modelleme görevinin kendisini ele almaktadır: bir sözcüğün bağlamı verildiğinde olasılığını tahmin etme, n-gram modelleri ve düzeltme (smoothing) teknikleri, şaşkınlık (perplexity) ile değerlendirme ve nöral ile dağıtık gösterimlere geçiş. Büyük dil modelleri, aynı görevin modern bir yansıması olarak konumlandırılmaktadır. Detaylı nöral mimariler, istatistiksel ve nöral NLP alanında incelenmektedir.

Temel sorular

Bir cümlenin olasılığı koşullu sözcük olasılıklarına nasıl ayrıştırılabilir?
Düzeltme (smoothing), eğitimde hiç görülmemiş sözcük dizilerini nasıl ele alır?
Şaşkınlık (perplexity), dil modellerini değerlendirmek ve karşılaştırmak için nasıl kullanılır?
Nöral dil modelleri, n-gram modellerine kıyasla neleri değiştirmiştir?

Anahtar kavramlar

n-gram
Markov varsayımı
düzeltme (smoothing)
şaşkınlık (perplexity)
geri çekilme ve enterpolasyon (backoff and interpolation)
dağıtık sözcük gösterimleri
çapraz entropi
sonraki belirteç tahmini

Temel kuramlar

N-gram Markov modellemesi: Bir sözcüğün olasılığını yalnızca önceki n−1 sözcüğe koşullandırarak yaklaştırma ve dil modellemeyi yönetilebilir bir sayma ve düzeltme problemine dönüştürme.
Nöral olasılıksal dil modeli: Seyrek n-gram sayımlarının yerine, dağıtık sözcük gösterimleri öğrenen bir nöral ağ kullanılması; bu sayede boyutluluk lanetinin hafifletilmesi ve görülmemiş bağlamlara genelleme yapılabilmesi.

Tarihçe

Shannon'ın bilgi kuramı, dili tahmin edilebilir stokastik bir kaynak olarak çerçevelemiştir ve IBM'deki konuşma tanıma topluluğu, 1980'lerde n-gram modellemeyi merkezi bir konuma getirmiştir. Bengio ve meslektaşları, 2003 yılında nöral olasılıksal dil modellerini tanıtmış, bu da ölçeklendirildiğinde günümüzün büyük dil modellerini üreten dağıtık gösterim yaklaşımının temelini atmıştır.

Tartışmalar

Sayma tabanlı yaklaşımlar ile öğrenilmiş gösterimler: Dilin en iyi şekilde ayrık diziler üzerindeki düzeltilmiş sayımlarla mı yoksa sürekli gösterimler öğrenen nöral ağlarla mı modellendiği tartışması; nöral yöntemler günümüzde baskın olsa da aynı olasılıksal amacı taşımaktadır.

Öne çıkan isimler

Claude Shannon
Frederick Jelinek
Yoshua Bengio
Daniel Jurafsky

İlgili konular

Temel eserler

shannon1948
bengio2003
jurafsky2025

Sıkça sorulan sorular

Şaşkınlık (perplexity) nedir?: Şaşkınlık, bir dil modelinin ayrılmış metin karşısında ne kadar 'şaşırdığını' ölçen bir metriktir; daha düşük şaşkınlık değeri, modelin gözlemlenen sözcüklere daha yüksek olasılık atadığını ve dolayısıyla daha iyi bir uyum sağladığını belirtir.
Dil modellemesi neden düzeltmeye (smoothing) ihtiyaç duyar?: Herhangi bir sonlu derlem (corpus), birçok geçerli sözcük dizisini içermemektedir; bu durumda saf bir model bu dizilere sıfır olasılık atayacaktır. Düzeltme, görülmemiş olaylara küçük bir olasılık kütlesini yeniden dağıtarak modelin yeni metinleri işleyebilmesini sağlamaktadır.