Dasar-Dasar Linguistik Komputasi
Landasan matematis dan metodologis linguistik komputasi: tata bahasa formal, automata, teknik finite-state, model bahasa probabilistik, dan praktik evaluasi yang memungkinkan perbandingan sistem secara ketat.
Definition
Dasar-dasar linguistik komputasi adalah studi tentang primitif formal, algoritmik, dan statistik yang digunakan untuk merepresentasikan dan memproses bahasa alami oleh mesin.
Scope
Area ini mencakup abstraksi yang menjadi dasar perlakuan komputasi terhadap bahasa. Ini termasuk hierarki Chomsky dari bahasa formal dan automata yang mengenalinya, ekspresi reguler dan transduser finite-state sebagai alat praktis untuk tokenisasi dan morfologi, model bahasa n-gram dan probabilistik, serta perangkat eksperimental — korpora, anotasi, pembagian latih/uji, dan metrik evaluasi — yang mendasari pekerjaan empiris. Ini tidak termasuk aplikasi hilir spesifik dan penguraian mendalam (deep parsing), yang dibahas di area tersendiri.
Sub-topics
Core questions
- Kelas bahasa formal apa saja yang ada, dan automata mana yang mengenalinya?
- Bagaimana metode finite-state dapat memodelkan tokenisasi, ejaan, dan morfologi secara efisien?
- Bagaimana kita menetapkan probabilitas pada urutan kata, dan mengapa itu membantu?
- Bagaimana sistem pemrosesan bahasa harus dievaluasi agar hasilnya sebanding dan dapat direproduksi?
Key concepts
- hierarki Chomsky
- automata finite-state
- ekspresi reguler
- tata bahasa bebas konteks
- model n-gram
- penghalusan (smoothing)
- perpleksitas (perplexity)
- korpus dan anotasi
Key theories
- Hierarki Chomsky
- Hierarki inklusi kelas bahasa formal (reguler, bebas konteks, sensitif konteks, dapat dihitung secara rekursif), masing-masing terkait dengan kelas tata bahasa dan mesin abstrak, yang membingkai seberapa banyak daya komputasi yang dibutuhkan untuk menggambarkan fenomena bahasa alami.
- Pemodelan bahasa probabilistik
- Memperlakukan bahasa sebagai proses stokastik dan memperkirakan probabilitas urutan kata, secara klasik melalui model n-gram dengan penghalusan (smoothing), memberikan dasar untuk pengenalan ucapan, koreksi ejaan, dan generasi.
History
Linguistik komputasi mewarisi inti formalnya dari karya tahun 1950-an tentang teori bahasa formal (Chomsky) dan teori informasi (Shannon), yang bersama-sama menyarankan tata bahasa simbolik dan model probabilistik bahasa. Metode finite-state berkembang pesat sepanjang tahun 1980-an sebagai alat yang efisien untuk morfologi dan fonologi, sementara revolusi statistik tahun 1990-an, yang didokumentasikan oleh Manning dan Schütze, menjadikan pemodelan probabilistik berbasis korpus sebagai paradigma empiris yang dominan.
Debates
- Tata bahasa simbolik versus model statistik
- Apakah bahasa alami paling baik ditangkap oleh aturan formal yang dibuat secara manual atau oleh distribusi probabilitas yang diperkirakan dari data; bidang ini sebagian besar telah menyatu pada pendekatan hibrida dan berbasis data sambil mempertahankan tata bahasa formal sebagai alat analitis.
Key figures
- Noam Chomsky
- Claude Shannon
- Daniel Jurafsky
- James H. Martin
- Christopher Manning
Related topics
Seminal works
- chomsky1956
- manning1999
- jurafsky2025
Frequently asked questions
- Mengapa para ahli linguistik komputasi peduli dengan hierarki Chomsky?
- Ini memberi tahu Anda mesin komputasi minimum yang dibutuhkan suatu fenomena: pola reguler dapat ditangani oleh alat finite-state yang cepat, sementara fenomena seperti klausa bersarang membutuhkan setidaknya daya bebas konteks. Memilih tingkat yang tepat menjaga sistem agar memadai dan efisien.
- Apakah pemodelan bahasa sama dengan model bahasa besar?
- Keduanya memiliki tugas inti yang sama — menetapkan probabilitas pada urutan kata — tetapi model bahasa klasik adalah penghitung n-gram, sedangkan model bahasa besar modern menggunakan jaringan saraf. Ide dasarnya identik; metode estimasinya berbeda.