Mengapa penandaan part-of-speech tidak sepele?

Banyak kata bersifat ambigu — 'book' bisa berupa kata benda atau kata kerja — sehingga tag yang benar bergantung pada konteks. Model urutan menyelesaikan ini dengan mempertimbangkan kata-kata dan tag di sekitarnya secara bersamaan.

Penandaan Part-of-Speech dan Pelabelan Urutan

Menetapkan label pada setiap token dalam sebuah kalimat — part-of-speech-nya, tipe entitas bernama, atau tag chunk — menggunakan model urutan probabilistik seperti model Markov tersembunyi dan bidang acak kondisional.

Temukan Topik dengan PaperMindSegeraFind papers & topics

Tools & resources

Unduh salindia

Learn & explore

VideoSegera

Definition

Pelabelan urutan adalah tugas menetapkan label kategorikal untuk setiap elemen dari urutan masukan, dengan penandaan part-of-speech sebagai contoh kanoniknya.

Scope

Mencakup tugas-tugas pelabelan urutan yang menjadi inti analisis dangkal: penandaan part-of-speech, pengenalan entitas bernama, dan chunking. Ini mencakup model standar — model Markov tersembunyi, model Markov entropi maksimum, bidang acak kondisional, dan penanda urutan saraf — serta set tag seperti Penn Treebank dan Universal POS. Penguraian lengkap dibahas dalam topik terkait.

Core questions

Bagaimana model Markov tersembunyi menetapkan urutan tag yang paling mungkin?
Mengapa bidang acak kondisional mengungguli model yang dinormalisasi secara lokal?
Bagaimana set tag dirancang dan distandarisasi di berbagai bahasa?
Bagaimana pelabelan urutan mendukung penguraian dan ekstraksi hilir?

Key concepts

tag part-of-speech
model Markov tersembunyi
algoritma Viterbi
bidang acak kondisional
pengenalan entitas bernama
chunking
tagset
pengkodean BIO

Key theories

Penandaan model Markov tersembunyi: Memodelkan urutan tag sebagai rantai Markov yang memancarkan kata-kata yang diamati, dengan algoritma Viterbi memulihkan urutan tag yang paling mungkin secara efisien.
Bidang acak kondisional: Model diskriminatif yang dinormalisasi secara global untuk pelabelan urutan yang mengkondisikan seluruh masukan dan menghindari bias label dari model yang dinormalisasi secara lokal.

History

Penandaan POS merupakan keberhasilan awal NLP statistik setelah Penn Treebank (1993) menyediakan data beranotasi yang besar. Penanda model Markov tersembunyi digantikan oleh model diskriminatif entropi maksimum dan bidang acak kondisional sekitar tahun 2001, yang kemudian diserap ke dalam pelabel urutan saraf pada tahun 2010-an.

Debates

Model urutan generatif versus diskriminatif: Apakah akan memodelkan distribusi gabungan kata dan tag (HMM) atau mengkondisikan label secara langsung pada masukan (CRF); model diskriminatif umumnya unggul dalam akurasi ketika fitur yang kaya tersedia.

Key figures

Mitchell Marcus
John Lafferty
Andrew McCallum
Fernando Pereira

Seminal works

marcus1993
lafferty2001

Frequently asked questions

Mengapa penandaan part-of-speech tidak sepele?: Banyak kata bersifat ambigu — 'book' bisa berupa kata benda atau kata kerja — sehingga tag yang benar bergantung pada konteks. Model urutan menyelesaikan ini dengan mempertimbangkan kata-kata dan tag di sekitarnya secara bersamaan.