ScholarGate
Asistan

Sözcük Türü Etiketleme ve Dizi Etiketleme

Bir cümledeki her belirtece — sözcük türü, adlandırılmış varlık tipi veya öbek etiketi gibi — gizli Markov modelleri ve koşullu rastgele alanlar gibi olasılıksal dizi modelleri kullanılarak bir etiket atanmasıdır.

PaperMind ile konu bulYakındaMakale ve konu bul
Tools & resources
Slaytları indir
Learn & explore
VideoYakında

Tanım

Dizi etiketleme, bir girdi dizisinin her öğesine kategorik bir etiket atama görevidir ve sözcük türü etiketleme bunun tipik bir örneğini oluşturmaktadır.

Kapsam

Sığ analizin temelini oluşturan dizi etiketleme görevlerini kapsar: sözcük türü etiketleme, adlandırılmış varlık tanıma ve öbekleme. Gizli Markov modelleri, maksimum entropi Markov modelleri, koşullu rastgele alanlar ve nöral dizi etiketleyiciler gibi standart modelleri ve Penn Treebank ile Universal POS gibi etiket kümelerini içermektedir. Tam ayrıştırma, ilgili diğer konularda ele alınmaktadır.

Temel sorular

  • Gizli Markov modelleri en olası etiket dizisini nasıl atamaktadır?
  • Koşullu rastgele alanlar neden yerel olarak normalleştirilmiş modellerden daha iyi performans göstermektedir?
  • Etiket kümeleri diller arasında nasıl tasarlanmakta ve standartlaştırılmaktadır?
  • Dizi etiketleme, sonraki ayrıştırma ve çıkarım işlemlerini nasıl desteklemektedir?

Anahtar kavramlar

  • sözcük türü etiketi
  • gizli Markov modeli
  • Viterbi algoritması
  • koşullu rastgele alan
  • adlandırılmış varlık tanıma
  • öbekleme
  • etiket kümesi
  • BIO kodlaması

Temel kuramlar

Gizli Markov modeli etiketleme
Bir etiket dizisini gözlemlenen kelimeleri yayan bir Markov zinciri olarak modelleme ve Viterbi algoritması ile en olası etiket dizisini verimli bir şekilde geri kazanma.
Koşullu rastgele alanlar
Dizi etiketleme için, tüm girdiye koşullanan ve yerel olarak normalleştirilmiş modellerin etiket yanlılığını önleyen küresel olarak normalleştirilmiş ayrıştırıcı modeller.

Tarihçe

Penn Treebank'in (1993) büyük miktarda etiketlenmiş veri sağlamasıyla, sözcük türü etiketleme istatistiksel doğal dil işlemenin erken dönem başarılarından biri olmuştur. Gizli Markov modeli etiketleyicileri, 2001 civarında yerini ayrıştırıcı maksimum entropi ve koşullu rastgele alan modellerine bırakmış, bunlar da 2010'lu yıllarda nöral dizi etiketleyicilere entegre edilmiştir.

Tartışmalar

Üretken ve ayrıştırıcı dizi modelleri
Kelimelerin ve etiketlerin ortak dağılımını modellemek (HMM'ler) mi yoksa etiketleri doğrudan girdiye koşullandırmak (CRF'ler) mı gerektiği tartışması; zengin özellikler mevcut olduğunda ayrıştırıcı modeller genellikle doğruluk açısından daha başarılı olmaktadır.

Öne çıkan isimler

  • Mitchell Marcus
  • John Lafferty
  • Andrew McCallum
  • Fernando Pereira

İlgili konular

Temel eserler

  • marcus1993
  • lafferty2001

Sıkça sorulan sorular

Sözcük türü etiketleme neden basit değildir?
Birçok kelime çok anlamlıdır — örneğin 'kitap' hem isim hem de fiil olabilir — bu nedenle doğru etiket bağlama bağlıdır. Dizi modelleri, çevreleyen kelimeleri ve etiketleri birlikte değerlendirerek bu durumu çözmektedir.

Bu kavram için yöntemler

İlgili kavramlar