ScholarGate
Asisten

Penguraian Sintaksis

Penguraian sintaksis adalah tugas untuk memulihkan struktur gramatikal suatu kalimat, menetapkan pohon konstituensi atau struktur dependensi yang menunjukkan bagaimana kata-kata bergabung dan berhubungan.

Temukan Topik dengan PaperMindSegeraFind papers & topics
Tools & resources
Unduh salindia
Learn & explore
VideoSegera

Definition

Penguraian sintaksis memetakan kalimat ke representasi struktur gramatikalnya—biasanya pohon konstituensi (struktur frasa) atau grafik dependensi—sesuai dengan tata bahasa atau model yang dipelajari dari data beranotasi.

Scope

Topik ini mencakup analisis struktur kalimat: tata bahasa bebas konteks dan tata bahasa yang lebih kaya, penguraian konstituensi (pohon struktur frasa) dan penguraian dependensi (hubungan kepala-dependen), algoritma penguraian bagan klasik seperti CKY dan Earley, serta penguraian probabilistik dan berbasis data yang dilatih pada bank pohon (treebanks). Ini membahas bagaimana ambiguitas sintaksis direpresentasikan dan diselesaikan. Penggunaan struktur sintaksis selanjutnya untuk menghitung makna dibahas dalam semantik komputasi.

Core questions

  • Bagaimana struktur gramatikal suatu kalimat direpresentasikan, sebagai konstituen atau sebagai dependensi?
  • Bagaimana algoritma penguraian bagan secara efisien menjelajahi banyak kemungkinan analisis suatu kalimat?
  • Bagaimana ambiguitas sintaksis ditangani, dan bagaimana model probabilistik memilih di antara penguraian?
  • Bagaimana pengurai dilatih dan dievaluasi menggunakan korpora beranotasi (treebanks)?

Key concepts

  • pohon konstituensi (struktur frasa)
  • struktur dependensi
  • tata bahasa bebas konteks
  • penguraian CKY dan Earley
  • tata bahasa bebas konteks probabilistik
  • ambiguitas sintaksis
  • treebanks
  • tag bagian ucapan

Key theories

Tata bahasa bebas konteks dan penguraian bagan
Tata bahasa bebas konteks memodelkan struktur frasa, dan pengurai bagan pemrograman dinamis seperti algoritma CKY dan Earley memulihkan semua penguraian yang valid dalam waktu polinomial dengan menggunakan kembali analisis sub-rentang.
Penguraian probabilistik
Menetapkan probabilitas pada aturan tata bahasa (seperti dalam tata bahasa bebas konteks probabilistik) memungkinkan pengurai untuk memberi peringkat analisis yang bersaing dan memilih struktur yang paling mungkin, mengatasi ambiguitas sintaksis bahasa alami yang meluas.
Treebanks dan penguraian berbasis data
Korpora beranotasi besar seperti Penn Treebank menyediakan data pelatihan dan evaluasi yang mengubah penguraian menjadi tugas berbasis data, memungkinkan pengurai statistik dan kemudian saraf yang dipelajari dari struktur yang dianotasi manusia.

Clinical relevance

Penguraian sintaksis mendukung pemeriksaan tata bahasa, ekstraksi informasi, penjawaban pertanyaan, dan terjemahan mesin, dengan mengungkapkan bagaimana kata-kata berkelompok dan berhubungan; struktur dependensi khususnya banyak digunakan sebagai masukan untuk sistem semantik dan ekstraksi selanjutnya.

History

Penguraian dibangun di atas tata bahasa formal Chomsky; algoritma CKY (1960-an) dan Earley (1970) memberikan penguraian bebas konteks yang efisien. Penn Treebank (1993) mengkatalisasi penguraian statistik, dan pengurai probabilistik serta kemudian pengurai saraf secara progresif meningkatkan akurasi dan ketahanan pada teks nyata.

Key figures

  • Noam Chomsky
  • Tadao Kasami
  • Jay Earley
  • Mitchell P. Marcus
  • Christopher D. Manning

Related topics

Seminal works

  • marcus1993
  • jurafsky2023

Frequently asked questions

Apa perbedaan antara penguraian konstituensi dan dependensi?
Penguraian konstituensi mengelompokkan kata-kata ke dalam frasa bersarang (seperti frasa nomina dan frasa verba), menghasilkan pohon konstituen. Penguraian dependensi sebaliknya menghubungkan setiap kata dengan kata yang bergantung padanya (kepalanya), menghasilkan grafik hubungan gramatikal. Keduanya menangkap struktur sintaksis tetapi menekankan aspek yang berbeda.
Mengapa penguraian sulit meskipun tata bahasa didefinisikan dengan baik?
Kalimat bahasa alami sangat ambigu: satu kalimat dapat memiliki banyak struktur yang valid secara gramatikal, dan jumlahnya dapat meningkat pesat seiring panjang kalimat. Memilih analisis yang dimaksudkan membutuhkan preferensi statistik atau yang dipelajari, bukan hanya tata bahasa, itulah yang membuat penguraian menjadi tantangan.

Methods for this concept

Related concepts