Formalisme Penguraian dan Tata Bahasa
Memulihkan struktur tata bahasa kalimat secara otomatis: formalisme tata bahasa yang menjelaskan struktur yang sah dan algoritma yang menghitungnya, dari pohon konstituensi hingga grafik dependensi.
Definition
Penguraian adalah penugasan komputasi struktur tata bahasa ke string masukan sesuai dengan tata bahasa; formalisme tata bahasa adalah sistem yang digunakan untuk menentukan struktur mana yang sah.
Scope
Mencakup analisis sintaksis dalam linguistik komputasi — penguraian konstituensi bebas konteks dan algoritma probabilistik serta berbasis bagannya, penguraian dependensi, formalisme tata bahasa utama di luar tata bahasa bebas konteks biasa, dan tugas pelabelan urutan (seperti penandaan bagian ucapan) yang mendukung penguraian. Ini tidak termasuk interpretasi semantik, yang ditangani dalam semantik komputasi, dan teori automata yang mendasarinya, yang dibahas dalam dasar-dasar.
Sub-topics
Core questions
- Bagaimana sebuah kalimat dapat diberi pohon sintaksis atau grafik dependensi secara efisien?
- Formalisme tata bahasa apa yang secara memadai menangkap sintaksis bahasa alami?
- Bagaimana probabilitas membantu menghilangkan ambiguitas di antara banyak kemungkinan penguraian?
- Bagaimana penandaan dan pengelompokan mendukung penguraian penuh?
Key concepts
- penguraian konstituensi
- penguraian dependensi
- tata bahasa bebas konteks
- penguraian bagan
- tata bahasa probabilistik
- penandaan bagian ucapan
- treebank
- ambiguitas struktural
Key theories
- Penguraian bagan
- Algoritma pemrograman dinamis seperti CKY dan Earley yang menghitung semua kemungkinan analisis kalimat dalam waktu polinomial dengan menggunakan kembali subparses yang dibagikan.
- Tata bahasa bebas konteks probabilistik
- Melampirkan probabilitas ke aturan tata bahasa sehingga penguraian yang paling mungkin dapat dipilih, mengatasi ambiguitas struktural yang meluas dalam bahasa alami.
History
Penguraian awal mengandalkan tata bahasa yang dibuat secara manual dan pencarian menyeluruh; algoritma CKY dan Earley membuat penguraian bebas konteks menjadi efisien. Rilis treebank pada tahun 1990-an memungkinkan penguraian probabilistik berbasis data, dan tahun 2000-an menyaksikan penguraian dependensi menjadi terkenal karena kekokohannya lintas bahasa, yang kemudian digantikan oleh pengurai saraf.
Debates
- Representasi konstituensi versus dependensi
- Apakah sintaksis paling baik direpresentasikan sebagai frasa bersarang atau sebagai hubungan kepala-dependen berlabel; keduanya banyak digunakan, dengan dependensi lebih disukai untuk bahasa dengan urutan kata bebas dan tugas-tugas hilir.
Key figures
- Jay Earley
- Joakim Nivre
- Christopher Manning
- Mitchell Marcus
Related topics
Seminal works
- manning1999
- kubler2009
- jurafsky2025
Frequently asked questions
- Mengapa penguraian sulit jika aturan tata bahasa sudah diketahui?
- Kalimat alami sangat ambigu: satu string dapat memiliki banyak struktur yang sah. Oleh karena itu, penguraian tidak hanya harus menemukan struktur tetapi juga memberi peringkat, itulah sebabnya model probabilistik dan yang dipelajari sangat penting.