Linguistik Korpus dan Korpora Web
Mempelajari bahasa melalui sampel teks otentik berskala besar: membangun dan mengkueri korpora, mengukur kolokasi dan frekuensi, serta memanfaatkan Web sebagai sumber daya linguistik yang luas.
Definition
Linguistik korpus adalah studi empiris bahasa berdasarkan koleksi sistematis teks yang muncul secara alami, dianalisis dengan ukuran frekuensi, konkordansi, dan asosiasi.
Scope
Mencakup perancangan, kompilasi, dan analisis korpora teks — pengambilan sampel dan keseimbangan, konkordansi dan analisis kata kunci, statistik frekuensi dan kolokasi seperti informasi timbal balik (mutual information), serta penggunaan Web sebagai korpus. Topik ini membahas linguistik korpus deskriptif dan penyediaan data untuk sistem komputasi. Skema anotasi dan treebank dibahas dalam topik terkait.
Core questions
- Bagaimana korpora diambil sampelnya untuk merepresentasikan varietas bahasa secara adil?
- Bagaimana ukuran asosiasi seperti informasi timbal balik mengungkapkan kolokasi?
- Apa saja manfaat dan jebakan dalam menggunakan Web sebagai korpus?
- Bagaimana konkordansi mendukung analisis linguistik dan leksikografi?
Key concepts
- desain korpus
- konkordansi
- kolokasi
- informasi timbal balik pointwise
- distribusi frekuensi
- analisis kata kunci
- Web sebagai korpus
- korpus seimbang
Key theories
- Ukuran asosiasi untuk kolokasi
- Menggunakan statistik seperti informasi timbal balik pointwise untuk mendeteksi pasangan kata yang muncul bersama lebih sering daripada yang diprediksi secara kebetulan, mengungkapkan kolokasi dan mendukung leksikografi.
- Web sebagai korpus
- Memperlakukan Web sebagai korpus yang sangat besar, meskipun tidak terkontrol, memungkinkan studi fenomena langka dan varietas dengan sumber daya rendah sambil menimbulkan pertanyaan tentang representativitas.
History
Linguistik korpus berkembang dari proyek leksikografi Sinclair dan pembangunan korpora seimbang, sementara karya Church dan Hanks pada tahun 1989 tentang informasi timbal balik membawa ukuran asosiasi statistik ke arus utama. Kilgarriff dan Grefenstette kemudian menetapkan Web sebagai korpus yang sah, meskipun bising, dengan skala yang belum pernah terjadi sebelumnya.
Debates
- Representativitas data Web
- Korpora Web sangat besar tetapi tidak seimbang dan sulit untuk dikarakterisasi, memicu perdebatan tentang sejauh mana kesimpulan yang ditarik darinya dapat digeneralisasikan ke bahasa secara keseluruhan.
Key figures
- Adam Kilgarriff
- Kenneth Church
- Patrick Hanks
- John Sinclair
Related topics
Seminal works
- church1989
- kilgarriff2003
Frequently asked questions
- Apa itu kolokasi?
- Kolokasi adalah pasangan atau kelompok kata yang secara kebiasaan muncul bersama lebih sering daripada yang diprediksi secara kebetulan, seperti 'strong tea' daripada 'powerful tea'. Ukuran asosiasi membantu mendeteksinya secara otomatis.