ScholarGate
Asisten

Dasar-Dasar Linguistik Komputasi

Landasan matematis dan metodologis linguistik komputasi: tata bahasa formal, automata, teknik finite-state, model bahasa probabilistik, dan praktik evaluasi yang memungkinkan perbandingan sistem secara ketat.

Temukan Topik dengan PaperMindSegeraFind papers & topics
Tools & resources
Unduh salindia
Learn & explore
VideoSegera

Definition

Dasar-dasar linguistik komputasi adalah studi tentang primitif formal, algoritmik, dan statistik yang digunakan untuk merepresentasikan dan memproses bahasa alami oleh mesin.

Scope

Area ini mencakup abstraksi yang menjadi dasar perlakuan komputasi terhadap bahasa. Ini termasuk hierarki Chomsky dari bahasa formal dan automata yang mengenalinya, ekspresi reguler dan transduser finite-state sebagai alat praktis untuk tokenisasi dan morfologi, model bahasa n-gram dan probabilistik, serta perangkat eksperimental — korpora, anotasi, pembagian latih/uji, dan metrik evaluasi — yang mendasari pekerjaan empiris. Ini tidak termasuk aplikasi hilir spesifik dan penguraian mendalam (deep parsing), yang dibahas di area tersendiri.

Sub-topics

Core questions

  • Kelas bahasa formal apa saja yang ada, dan automata mana yang mengenalinya?
  • Bagaimana metode finite-state dapat memodelkan tokenisasi, ejaan, dan morfologi secara efisien?
  • Bagaimana kita menetapkan probabilitas pada urutan kata, dan mengapa itu membantu?
  • Bagaimana sistem pemrosesan bahasa harus dievaluasi agar hasilnya sebanding dan dapat direproduksi?

Key concepts

  • hierarki Chomsky
  • automata finite-state
  • ekspresi reguler
  • tata bahasa bebas konteks
  • model n-gram
  • penghalusan (smoothing)
  • perpleksitas (perplexity)
  • korpus dan anotasi

Key theories

Hierarki Chomsky
Hierarki inklusi kelas bahasa formal (reguler, bebas konteks, sensitif konteks, dapat dihitung secara rekursif), masing-masing terkait dengan kelas tata bahasa dan mesin abstrak, yang membingkai seberapa banyak daya komputasi yang dibutuhkan untuk menggambarkan fenomena bahasa alami.
Pemodelan bahasa probabilistik
Memperlakukan bahasa sebagai proses stokastik dan memperkirakan probabilitas urutan kata, secara klasik melalui model n-gram dengan penghalusan (smoothing), memberikan dasar untuk pengenalan ucapan, koreksi ejaan, dan generasi.

History

Linguistik komputasi mewarisi inti formalnya dari karya tahun 1950-an tentang teori bahasa formal (Chomsky) dan teori informasi (Shannon), yang bersama-sama menyarankan tata bahasa simbolik dan model probabilistik bahasa. Metode finite-state berkembang pesat sepanjang tahun 1980-an sebagai alat yang efisien untuk morfologi dan fonologi, sementara revolusi statistik tahun 1990-an, yang didokumentasikan oleh Manning dan Schütze, menjadikan pemodelan probabilistik berbasis korpus sebagai paradigma empiris yang dominan.

Debates

Tata bahasa simbolik versus model statistik
Apakah bahasa alami paling baik ditangkap oleh aturan formal yang dibuat secara manual atau oleh distribusi probabilitas yang diperkirakan dari data; bidang ini sebagian besar telah menyatu pada pendekatan hibrida dan berbasis data sambil mempertahankan tata bahasa formal sebagai alat analitis.

Key figures

  • Noam Chomsky
  • Claude Shannon
  • Daniel Jurafsky
  • James H. Martin
  • Christopher Manning

Related topics

Seminal works

  • chomsky1956
  • manning1999
  • jurafsky2025

Frequently asked questions

Mengapa para ahli linguistik komputasi peduli dengan hierarki Chomsky?
Ini memberi tahu Anda mesin komputasi minimum yang dibutuhkan suatu fenomena: pola reguler dapat ditangani oleh alat finite-state yang cepat, sementara fenomena seperti klausa bersarang membutuhkan setidaknya daya bebas konteks. Memilih tingkat yang tepat menjaga sistem agar memadai dan efisien.
Apakah pemodelan bahasa sama dengan model bahasa besar?
Keduanya memiliki tugas inti yang sama — menetapkan probabilitas pada urutan kata — tetapi model bahasa klasik adalah penghitung n-gram, sedangkan model bahasa besar modern menggunakan jaringan saraf. Ide dasarnya identik; metode estimasinya berbeda.

Methods for this concept

Related concepts