ScholarGate
Asisten

Linguistik Korpus dan Korpora Web

Mempelajari bahasa melalui sampel teks otentik berskala besar: membangun dan mengkueri korpora, mengukur kolokasi dan frekuensi, serta memanfaatkan Web sebagai sumber daya linguistik yang luas.

Temukan Topik dengan PaperMindSegeraFind papers & topics
Tools & resources
Unduh salindia
Learn & explore
VideoSegera

Definition

Linguistik korpus adalah studi empiris bahasa berdasarkan koleksi sistematis teks yang muncul secara alami, dianalisis dengan ukuran frekuensi, konkordansi, dan asosiasi.

Scope

Mencakup perancangan, kompilasi, dan analisis korpora teks — pengambilan sampel dan keseimbangan, konkordansi dan analisis kata kunci, statistik frekuensi dan kolokasi seperti informasi timbal balik (mutual information), serta penggunaan Web sebagai korpus. Topik ini membahas linguistik korpus deskriptif dan penyediaan data untuk sistem komputasi. Skema anotasi dan treebank dibahas dalam topik terkait.

Core questions

  • Bagaimana korpora diambil sampelnya untuk merepresentasikan varietas bahasa secara adil?
  • Bagaimana ukuran asosiasi seperti informasi timbal balik mengungkapkan kolokasi?
  • Apa saja manfaat dan jebakan dalam menggunakan Web sebagai korpus?
  • Bagaimana konkordansi mendukung analisis linguistik dan leksikografi?

Key concepts

  • desain korpus
  • konkordansi
  • kolokasi
  • informasi timbal balik pointwise
  • distribusi frekuensi
  • analisis kata kunci
  • Web sebagai korpus
  • korpus seimbang

Key theories

Ukuran asosiasi untuk kolokasi
Menggunakan statistik seperti informasi timbal balik pointwise untuk mendeteksi pasangan kata yang muncul bersama lebih sering daripada yang diprediksi secara kebetulan, mengungkapkan kolokasi dan mendukung leksikografi.
Web sebagai korpus
Memperlakukan Web sebagai korpus yang sangat besar, meskipun tidak terkontrol, memungkinkan studi fenomena langka dan varietas dengan sumber daya rendah sambil menimbulkan pertanyaan tentang representativitas.

History

Linguistik korpus berkembang dari proyek leksikografi Sinclair dan pembangunan korpora seimbang, sementara karya Church dan Hanks pada tahun 1989 tentang informasi timbal balik membawa ukuran asosiasi statistik ke arus utama. Kilgarriff dan Grefenstette kemudian menetapkan Web sebagai korpus yang sah, meskipun bising, dengan skala yang belum pernah terjadi sebelumnya.

Debates

Representativitas data Web
Korpora Web sangat besar tetapi tidak seimbang dan sulit untuk dikarakterisasi, memicu perdebatan tentang sejauh mana kesimpulan yang ditarik darinya dapat digeneralisasikan ke bahasa secara keseluruhan.

Key figures

  • Adam Kilgarriff
  • Kenneth Church
  • Patrick Hanks
  • John Sinclair

Related topics

Seminal works

  • church1989
  • kilgarriff2003

Frequently asked questions

Apa itu kolokasi?
Kolokasi adalah pasangan atau kelompok kata yang secara kebiasaan muncul bersama lebih sering daripada yang diprediksi secara kebetulan, seperti 'strong tea' daripada 'powerful tea'. Ukuran asosiasi membantu mendeteksinya secara otomatis.

Methods for this concept

Related concepts