Treebank dan Korpora Beranotasi
Korpora yang dianotasi secara manual dengan struktur linguistik — pohon sintaksis, dependensi, makna, dan entitas — yang berfungsi sebagai data pelatihan dan standar emas untuk linguistik komputasi.
Definition
Treebank adalah korpus di mana setiap kalimat dianotasi dengan struktur sintaksisnya; secara lebih luas, korpus beranotasi membawa label linguistik eksplisit yang ditambahkan oleh manusia.
Scope
Mencakup desain dan konstruksi korpora beranotasi, terutama treebank yang membawa sintaksis konstituensi atau dependensi, serta alur anotasi, pedoman, dan kontrol kualitas di baliknya. Ini mencakup tradisi Penn Treebank dan upaya Universal Dependencies lintas bahasa, serta peran kesepakatan antar-anotator. Desain korpus umum dan sumber daya leksikal dibahas dalam topik terkait.
Core questions
- Bagaimana treebank dirancang dan skema anotasi apa yang digunakannya?
- Mengapa korpora beranotasi sangat diperlukan untuk pembelajaran terawasi?
- Bagaimana kualitas anotasi dijamin dan diukur?
- Bagaimana anotasi lintas bahasa seperti Universal Dependencies mencapai konsistensi?
Key concepts
- treebank
- skema anotasi
- pedoman anotasi
- standar emas
- kesepakatan antar-anotator
- Penn Treebank
- Universal Dependencies
- adjudikasi
Key theories
- Pembelajaran terawasi berbasis Treebank
- Korpora sintaksis yang dianotasi secara manual menyediakan sinyal pengawasan yang memungkinkan penguraian statistik, penandaan, dan banyak tugas NLP.
- Anotasi harmonis lintas bahasa
- Universal Dependencies menerapkan satu skema anotasi di banyak bahasa, memungkinkan treebank yang sebanding dan transfer model.
History
Penn Treebank (1993) adalah korpus beranotasi sintaksis besar pertama dan mengkatalisasi penguraian statistik. Treebank selanjutnya menambahkan lapisan semantik dan wacana, dan proyek Universal Dependencies menstandardisasi anotasi di berbagai bahasa, menjadi sumber daya treebank multibahasa de facto.
Debates
- Kedalaman anotasi versus konsistensi
- Anotasi yang lebih kaya menangkap lebih banyak detail linguistik tetapi lebih sulit diterapkan secara konsisten; proyek harus menyeimbangkan kecanggihan teoretis dengan anotasi yang andal dan terukur.
Key figures
- Mitchell Marcus
- Beatrice Santorini
- Marie-Catherine de Marneffe
- Joakim Nivre
Related topics
Seminal works
- marcus1993
- demarneffe2021
Frequently asked questions
- Mengapa membangun treebank secara manual jika parser sudah ada?
- Parser dilatih dan dievaluasi terhadap treebank yang dianotasi manusia, yang berfungsi sebagai standar emas. Tanpa anotasi manual yang andal, tidak akan ada yang bisa dipelajari atau diukur akurasinya.