ScholarGate
Asisten

Treebank dan Korpora Beranotasi

Korpora yang dianotasi secara manual dengan struktur linguistik — pohon sintaksis, dependensi, makna, dan entitas — yang berfungsi sebagai data pelatihan dan standar emas untuk linguistik komputasi.

Temukan Topik dengan PaperMindSegeraFind papers & topics
Tools & resources
Unduh salindia
Learn & explore
VideoSegera

Definition

Treebank adalah korpus di mana setiap kalimat dianotasi dengan struktur sintaksisnya; secara lebih luas, korpus beranotasi membawa label linguistik eksplisit yang ditambahkan oleh manusia.

Scope

Mencakup desain dan konstruksi korpora beranotasi, terutama treebank yang membawa sintaksis konstituensi atau dependensi, serta alur anotasi, pedoman, dan kontrol kualitas di baliknya. Ini mencakup tradisi Penn Treebank dan upaya Universal Dependencies lintas bahasa, serta peran kesepakatan antar-anotator. Desain korpus umum dan sumber daya leksikal dibahas dalam topik terkait.

Core questions

  • Bagaimana treebank dirancang dan skema anotasi apa yang digunakannya?
  • Mengapa korpora beranotasi sangat diperlukan untuk pembelajaran terawasi?
  • Bagaimana kualitas anotasi dijamin dan diukur?
  • Bagaimana anotasi lintas bahasa seperti Universal Dependencies mencapai konsistensi?

Key concepts

  • treebank
  • skema anotasi
  • pedoman anotasi
  • standar emas
  • kesepakatan antar-anotator
  • Penn Treebank
  • Universal Dependencies
  • adjudikasi

Key theories

Pembelajaran terawasi berbasis Treebank
Korpora sintaksis yang dianotasi secara manual menyediakan sinyal pengawasan yang memungkinkan penguraian statistik, penandaan, dan banyak tugas NLP.
Anotasi harmonis lintas bahasa
Universal Dependencies menerapkan satu skema anotasi di banyak bahasa, memungkinkan treebank yang sebanding dan transfer model.

History

Penn Treebank (1993) adalah korpus beranotasi sintaksis besar pertama dan mengkatalisasi penguraian statistik. Treebank selanjutnya menambahkan lapisan semantik dan wacana, dan proyek Universal Dependencies menstandardisasi anotasi di berbagai bahasa, menjadi sumber daya treebank multibahasa de facto.

Debates

Kedalaman anotasi versus konsistensi
Anotasi yang lebih kaya menangkap lebih banyak detail linguistik tetapi lebih sulit diterapkan secara konsisten; proyek harus menyeimbangkan kecanggihan teoretis dengan anotasi yang andal dan terukur.

Key figures

  • Mitchell Marcus
  • Beatrice Santorini
  • Marie-Catherine de Marneffe
  • Joakim Nivre

Related topics

Seminal works

  • marcus1993
  • demarneffe2021

Frequently asked questions

Mengapa membangun treebank secara manual jika parser sudah ada?
Parser dilatih dan dievaluasi terhadap treebank yang dianotasi manusia, yang berfungsi sebagai standar emas. Tanpa anotasi manual yang andal, tidak akan ada yang bisa dipelajari atau diukur akurasinya.

Methods for this concept

Related concepts