Sözcük türü etiketleme neden basit değildir?

Birçok kelime çok anlamlıdır — örneğin 'kitap' hem isim hem de fiil olabilir — bu nedenle doğru etiket bağlama bağlıdır. Dizi modelleri, çevreleyen kelimeleri ve etiketleri birlikte değerlendirerek bu durumu çözmektedir.

Sözcük Türü Etiketleme ve Dizi Etiketleme

Bir cümledeki her belirtece — sözcük türü, adlandırılmış varlık tipi veya öbek etiketi gibi — gizli Markov modelleri ve koşullu rastgele alanlar gibi olasılıksal dizi modelleri kullanılarak bir etiket atanmasıdır.

PaperMind ile konu bulYakındaMakale ve konu bul

Tools & resources

Slaytları indir

Learn & explore

VideoYakında

Tanım

Dizi etiketleme, bir girdi dizisinin her öğesine kategorik bir etiket atama görevidir ve sözcük türü etiketleme bunun tipik bir örneğini oluşturmaktadır.

Kapsam

Sığ analizin temelini oluşturan dizi etiketleme görevlerini kapsar: sözcük türü etiketleme, adlandırılmış varlık tanıma ve öbekleme. Gizli Markov modelleri, maksimum entropi Markov modelleri, koşullu rastgele alanlar ve nöral dizi etiketleyiciler gibi standart modelleri ve Penn Treebank ile Universal POS gibi etiket kümelerini içermektedir. Tam ayrıştırma, ilgili diğer konularda ele alınmaktadır.

Temel sorular

Gizli Markov modelleri en olası etiket dizisini nasıl atamaktadır?
Koşullu rastgele alanlar neden yerel olarak normalleştirilmiş modellerden daha iyi performans göstermektedir?
Etiket kümeleri diller arasında nasıl tasarlanmakta ve standartlaştırılmaktadır?
Dizi etiketleme, sonraki ayrıştırma ve çıkarım işlemlerini nasıl desteklemektedir?

Anahtar kavramlar

sözcük türü etiketi
gizli Markov modeli
Viterbi algoritması
koşullu rastgele alan
adlandırılmış varlık tanıma
öbekleme
etiket kümesi
BIO kodlaması

Temel kuramlar

Gizli Markov modeli etiketleme: Bir etiket dizisini gözlemlenen kelimeleri yayan bir Markov zinciri olarak modelleme ve Viterbi algoritması ile en olası etiket dizisini verimli bir şekilde geri kazanma.
Koşullu rastgele alanlar: Dizi etiketleme için, tüm girdiye koşullanan ve yerel olarak normalleştirilmiş modellerin etiket yanlılığını önleyen küresel olarak normalleştirilmiş ayrıştırıcı modeller.

Tarihçe

Penn Treebank'in (1993) büyük miktarda etiketlenmiş veri sağlamasıyla, sözcük türü etiketleme istatistiksel doğal dil işlemenin erken dönem başarılarından biri olmuştur. Gizli Markov modeli etiketleyicileri, 2001 civarında yerini ayrıştırıcı maksimum entropi ve koşullu rastgele alan modellerine bırakmış, bunlar da 2010'lu yıllarda nöral dizi etiketleyicilere entegre edilmiştir.

Tartışmalar

Üretken ve ayrıştırıcı dizi modelleri: Kelimelerin ve etiketlerin ortak dağılımını modellemek (HMM'ler) mi yoksa etiketleri doğrudan girdiye koşullandırmak (CRF'ler) mı gerektiği tartışması; zengin özellikler mevcut olduğunda ayrıştırıcı modeller genellikle doğruluk açısından daha başarılı olmaktadır.

Öne çıkan isimler

Mitchell Marcus
John Lafferty
Andrew McCallum
Fernando Pereira

İlgili konular

Temel eserler

marcus1993
lafferty2001

Sıkça sorulan sorular

Sözcük türü etiketleme neden basit değildir?: Birçok kelime çok anlamlıdır — örneğin 'kitap' hem isim hem de fiil olabilir — bu nedenle doğru etiket bağlama bağlıdır. Dizi modelleri, çevreleyen kelimeleri ve etiketleri birlikte değerlendirerek bu durumu çözmektedir.