Apa yang membuat korpus yang baik?

Korpus yang baik cukup besar untuk statistik yang andal dan representatif dari varietas bahasa yang sedang dipelajari, dengan dokumentasi yang jelas tentang sumbernya, pengambilan sampel, dan anotasi apa pun sehingga hasilnya dapat diinterpretasikan dan direproduksi.

Sumber Daya Leksikal dan Korpus

Basis data dan pengetahuan yang menjadi sandaran linguistik komputasi empiris: korpora teks, basis data leksikal dan ontologi, perlakuan komputasi terhadap struktur kata, dan treebank yang dianotasi secara kaya.

Temukan Topik dengan PaperMindSegeraFind papers & topics

Tools & resources

Unduh salindia

Learn & explore

VideoSegera

Definition

Sumber daya leksikal dan korpus adalah koleksi terstruktur data bahasa — teks, leksikon, dan anotasi — yang dibangun untuk mendukung analisis empiris dan pelatihan sistem pemrosesan bahasa.

Scope

Mencakup pembangunan, kurasi, dan penggunaan sumber daya bahasa — korpora seimbang dan web, basis data leksikal-semantik seperti WordNet, morfologi komputasi dan leksikon, serta treebank beranotasi. Ini membahas desain korpus, representativitas, standar anotasi, dan peran sumber daya dalam melatih dan mengevaluasi sistem. Pemodelan algoritmik yang menggunakan sumber daya ini dibahas di area lain.

Sub-topics

Core questions

Bagaimana korpora dirancang agar representatif dan seimbang?
Bagaimana makna kata dapat diorganisasikan ke dalam basis data leksikal yang dapat dibaca mesin?
Bagaimana struktur kata direpresentasikan secara komputasi di berbagai bahasa yang kaya secara morfologis?
Mengapa treebank beranotasi menjadi pusat linguistik berbasis data?

Key concepts

korpus
representativitas
basis data leksikal
WordNet
synset
leksikon morfologis
treebank
standar anotasi

Key theories

Empirisme berbasis korpus: Pendekatan metodologis bahwa generalisasi linguistik dan parameter sistem harus didasarkan pada sampel besar penggunaan yang dibuktikan daripada introspeksi saja.
Jaringan leksikal-semantik: Mengorganisasikan leksikon sebagai grafik indra yang dihubungkan oleh relasi seperti sinonim dan hipernim, seperti dalam WordNet, mendukung tugas mulai dari disambiguasi hingga kesamaan semantik.

History

Pergeseran ke metode empiris pada tahun 1990-an menjadikan korpora dan sumber daya leksikal sebagai fondasi. WordNet menyediakan basis data leksikal-semantik yang dapat digunakan kembali, korpora seimbang seperti British National Corpus menetapkan standar desain, dan karya Kilgarriff serta Grefenstette melegitimasi Web itu sendiri sebagai korpus yang luas untuk studi linguistik.

Debates

Korpora seimbang versus Web sebagai korpus: Apakah korpora yang diseimbangkan dengan cermat atau Web yang berantakan namun sangat besar lebih baik melayani penyelidikan linguistik; bidang ini semakin menggunakan keduanya, menimbang representativitas terhadap skala.

Key figures

Christiane Fellbaum
Adam Kilgarriff
Christopher Manning
George Miller

Seminal works

fellbaum1998
kilgarriff2003
manning1999

Frequently asked questions

Apa yang membuat korpus yang baik?: Korpus yang baik cukup besar untuk statistik yang andal dan representatif dari varietas bahasa yang sedang dipelajari, dengan dokumentasi yang jelas tentang sumbernya, pengambilan sampel, dan anotasi apa pun sehingga hasilnya dapat diinterpretasikan dan direproduksi.