Sözcük Türü Etiketleme ve Dizi Etiketleme
Bir cümledeki her belirtece — sözcük türü, adlandırılmış varlık tipi veya öbek etiketi gibi — gizli Markov modelleri ve koşullu rastgele alanlar gibi olasılıksal dizi modelleri kullanılarak bir etiket atanmasıdır.
Tanım
Dizi etiketleme, bir girdi dizisinin her öğesine kategorik bir etiket atama görevidir ve sözcük türü etiketleme bunun tipik bir örneğini oluşturmaktadır.
Kapsam
Sığ analizin temelini oluşturan dizi etiketleme görevlerini kapsar: sözcük türü etiketleme, adlandırılmış varlık tanıma ve öbekleme. Gizli Markov modelleri, maksimum entropi Markov modelleri, koşullu rastgele alanlar ve nöral dizi etiketleyiciler gibi standart modelleri ve Penn Treebank ile Universal POS gibi etiket kümelerini içermektedir. Tam ayrıştırma, ilgili diğer konularda ele alınmaktadır.
Temel sorular
- Gizli Markov modelleri en olası etiket dizisini nasıl atamaktadır?
- Koşullu rastgele alanlar neden yerel olarak normalleştirilmiş modellerden daha iyi performans göstermektedir?
- Etiket kümeleri diller arasında nasıl tasarlanmakta ve standartlaştırılmaktadır?
- Dizi etiketleme, sonraki ayrıştırma ve çıkarım işlemlerini nasıl desteklemektedir?
Anahtar kavramlar
- sözcük türü etiketi
- gizli Markov modeli
- Viterbi algoritması
- koşullu rastgele alan
- adlandırılmış varlık tanıma
- öbekleme
- etiket kümesi
- BIO kodlaması
Temel kuramlar
- Gizli Markov modeli etiketleme
- Bir etiket dizisini gözlemlenen kelimeleri yayan bir Markov zinciri olarak modelleme ve Viterbi algoritması ile en olası etiket dizisini verimli bir şekilde geri kazanma.
- Koşullu rastgele alanlar
- Dizi etiketleme için, tüm girdiye koşullanan ve yerel olarak normalleştirilmiş modellerin etiket yanlılığını önleyen küresel olarak normalleştirilmiş ayrıştırıcı modeller.
Tarihçe
Penn Treebank'in (1993) büyük miktarda etiketlenmiş veri sağlamasıyla, sözcük türü etiketleme istatistiksel doğal dil işlemenin erken dönem başarılarından biri olmuştur. Gizli Markov modeli etiketleyicileri, 2001 civarında yerini ayrıştırıcı maksimum entropi ve koşullu rastgele alan modellerine bırakmış, bunlar da 2010'lu yıllarda nöral dizi etiketleyicilere entegre edilmiştir.
Tartışmalar
- Üretken ve ayrıştırıcı dizi modelleri
- Kelimelerin ve etiketlerin ortak dağılımını modellemek (HMM'ler) mi yoksa etiketleri doğrudan girdiye koşullandırmak (CRF'ler) mı gerektiği tartışması; zengin özellikler mevcut olduğunda ayrıştırıcı modeller genellikle doğruluk açısından daha başarılı olmaktadır.
Öne çıkan isimler
- Mitchell Marcus
- John Lafferty
- Andrew McCallum
- Fernando Pereira
İlgili konular
Temel eserler
- marcus1993
- lafferty2001
Sıkça sorulan sorular
- Sözcük türü etiketleme neden basit değildir?
- Birçok kelime çok anlamlıdır — örneğin 'kitap' hem isim hem de fiil olabilir — bu nedenle doğru etiket bağlama bağlıdır. Dizi modelleri, çevreleyen kelimeleri ve etiketleri birlikte değerlendirerek bu durumu çözmektedir.