Sumber Daya Leksikal dan Korpus
Basis data dan pengetahuan yang menjadi sandaran linguistik komputasi empiris: korpora teks, basis data leksikal dan ontologi, perlakuan komputasi terhadap struktur kata, dan treebank yang dianotasi secara kaya.
Definition
Sumber daya leksikal dan korpus adalah koleksi terstruktur data bahasa — teks, leksikon, dan anotasi — yang dibangun untuk mendukung analisis empiris dan pelatihan sistem pemrosesan bahasa.
Scope
Mencakup pembangunan, kurasi, dan penggunaan sumber daya bahasa — korpora seimbang dan web, basis data leksikal-semantik seperti WordNet, morfologi komputasi dan leksikon, serta treebank beranotasi. Ini membahas desain korpus, representativitas, standar anotasi, dan peran sumber daya dalam melatih dan mengevaluasi sistem. Pemodelan algoritmik yang menggunakan sumber daya ini dibahas di area lain.
Sub-topics
Core questions
- Bagaimana korpora dirancang agar representatif dan seimbang?
- Bagaimana makna kata dapat diorganisasikan ke dalam basis data leksikal yang dapat dibaca mesin?
- Bagaimana struktur kata direpresentasikan secara komputasi di berbagai bahasa yang kaya secara morfologis?
- Mengapa treebank beranotasi menjadi pusat linguistik berbasis data?
Key concepts
- korpus
- representativitas
- basis data leksikal
- WordNet
- synset
- leksikon morfologis
- treebank
- standar anotasi
Key theories
- Empirisme berbasis korpus
- Pendekatan metodologis bahwa generalisasi linguistik dan parameter sistem harus didasarkan pada sampel besar penggunaan yang dibuktikan daripada introspeksi saja.
- Jaringan leksikal-semantik
- Mengorganisasikan leksikon sebagai grafik indra yang dihubungkan oleh relasi seperti sinonim dan hipernim, seperti dalam WordNet, mendukung tugas mulai dari disambiguasi hingga kesamaan semantik.
History
Pergeseran ke metode empiris pada tahun 1990-an menjadikan korpora dan sumber daya leksikal sebagai fondasi. WordNet menyediakan basis data leksikal-semantik yang dapat digunakan kembali, korpora seimbang seperti British National Corpus menetapkan standar desain, dan karya Kilgarriff serta Grefenstette melegitimasi Web itu sendiri sebagai korpus yang luas untuk studi linguistik.
Debates
- Korpora seimbang versus Web sebagai korpus
- Apakah korpora yang diseimbangkan dengan cermat atau Web yang berantakan namun sangat besar lebih baik melayani penyelidikan linguistik; bidang ini semakin menggunakan keduanya, menimbang representativitas terhadap skala.
Key figures
- Christiane Fellbaum
- Adam Kilgarriff
- Christopher Manning
- George Miller
Related topics
Seminal works
- fellbaum1998
- kilgarriff2003
- manning1999
Frequently asked questions
- Apa yang membuat korpus yang baik?
- Korpus yang baik cukup besar untuk statistik yang andal dan representatif dari varietas bahasa yang sedang dipelajari, dengan dokumentasi yang jelas tentang sumbernya, pengambilan sampel, dan anotasi apa pun sehingga hasilnya dapat diinterpretasikan dan direproduksi.