Penandaan Part-of-Speech dan Pelabelan Urutan
Menetapkan label pada setiap token dalam sebuah kalimat — part-of-speech-nya, tipe entitas bernama, atau tag chunk — menggunakan model urutan probabilistik seperti model Markov tersembunyi dan bidang acak kondisional.
Definition
Pelabelan urutan adalah tugas menetapkan label kategorikal untuk setiap elemen dari urutan masukan, dengan penandaan part-of-speech sebagai contoh kanoniknya.
Scope
Mencakup tugas-tugas pelabelan urutan yang menjadi inti analisis dangkal: penandaan part-of-speech, pengenalan entitas bernama, dan chunking. Ini mencakup model standar — model Markov tersembunyi, model Markov entropi maksimum, bidang acak kondisional, dan penanda urutan saraf — serta set tag seperti Penn Treebank dan Universal POS. Penguraian lengkap dibahas dalam topik terkait.
Core questions
- Bagaimana model Markov tersembunyi menetapkan urutan tag yang paling mungkin?
- Mengapa bidang acak kondisional mengungguli model yang dinormalisasi secara lokal?
- Bagaimana set tag dirancang dan distandarisasi di berbagai bahasa?
- Bagaimana pelabelan urutan mendukung penguraian dan ekstraksi hilir?
Key concepts
- tag part-of-speech
- model Markov tersembunyi
- algoritma Viterbi
- bidang acak kondisional
- pengenalan entitas bernama
- chunking
- tagset
- pengkodean BIO
Key theories
- Penandaan model Markov tersembunyi
- Memodelkan urutan tag sebagai rantai Markov yang memancarkan kata-kata yang diamati, dengan algoritma Viterbi memulihkan urutan tag yang paling mungkin secara efisien.
- Bidang acak kondisional
- Model diskriminatif yang dinormalisasi secara global untuk pelabelan urutan yang mengkondisikan seluruh masukan dan menghindari bias label dari model yang dinormalisasi secara lokal.
History
Penandaan POS merupakan keberhasilan awal NLP statistik setelah Penn Treebank (1993) menyediakan data beranotasi yang besar. Penanda model Markov tersembunyi digantikan oleh model diskriminatif entropi maksimum dan bidang acak kondisional sekitar tahun 2001, yang kemudian diserap ke dalam pelabel urutan saraf pada tahun 2010-an.
Debates
- Model urutan generatif versus diskriminatif
- Apakah akan memodelkan distribusi gabungan kata dan tag (HMM) atau mengkondisikan label secara langsung pada masukan (CRF); model diskriminatif umumnya unggul dalam akurasi ketika fitur yang kaya tersedia.
Key figures
- Mitchell Marcus
- John Lafferty
- Andrew McCallum
- Fernando Pereira
Related topics
Seminal works
- marcus1993
- lafferty2001
Frequently asked questions
- Mengapa penandaan part-of-speech tidak sepele?
- Banyak kata bersifat ambigu — 'book' bisa berupa kata benda atau kata kerja — sehingga tag yang benar bergantung pada konteks. Model urutan menyelesaikan ini dengan mempertimbangkan kata-kata dan tag di sekitarnya secara bersamaan.