ScholarGate
Asisten

Ekspresi Reguler dan Metode Keadaan-Terbatas

Teknik praktis yang dibangun di atas bahasa reguler — pencocokan pola dengan ekspresi reguler dan pemetaan string-ke-string dengan transduser keadaan-terbatas — yang menangani tokenisasi, normalisasi, dan analisis morfologi secara efisien.

Temukan Topik dengan PaperMindSegeraFind papers & topics
Tools & resources
Unduh salindia
Learn & explore
VideoSegera

Definition

Metode keadaan-terbatas adalah teknik pemrosesan bahasa di mana pola dan pemetaan diekspresikan sebagai ekspresi reguler atau automata dan transduser keadaan-terbatas, menjamin pengenalan waktu linear yang efisien.

Scope

Mencakup ekspresi reguler sebagai bahasa pola di atas string, automata keadaan-terbatas dan transduser sebagai realisasi komputasionalnya, serta penerapannya pada normalisasi teks, tokenisasi, ejaan, dan morfologi komputasional. Ini mencakup metode keadaan-terbatas berbobot yang digunakan dalam pemrosesan ucapan dan pemrosesan dangkal. Teori fonologi penuh dan penguraian sintaksis mendalam berada di luar cakupan.

Core questions

  • Bagaimana ekspresi reguler dapat menentukan dan mengekstrak pola tekstual secara tepat?
  • Bagaimana transduser keadaan-terbatas memetakan bentuk permukaan ke analisis leksikal, seperti dalam morfologi?
  • Mengapa metode keadaan-terbatas lebih disukai untuk tokenisasi dan normalisasi?

Key concepts

  • ekspresi reguler
  • transduser keadaan-terbatas
  • tokenisasi
  • normalisasi teks
  • analisis morfologi
  • morfologi dua tingkat
  • automata berbobot
  • jarak edit

Key theories

Model reguler morfologi dan fonologi
Hasil bahwa aturan penulisan ulang fonologi dan alternasi morfologi dapat dikompilasi menjadi transduser keadaan-terbatas, menjadikan analisis dan generasi sebagai kerangka kerja tunggal yang efisien.
Ekuivalensi ekspresi reguler dan automata terbatas
Ekspresi reguler, tata bahasa reguler, dan automata keadaan-terbatas semuanya menggambarkan secara tepat bahasa reguler, sehingga pola deklaratif dapat dikompilasi menjadi pengenal yang efisien.

History

Ekspresi reguler masuk ke komputasi dari karya Kleene dan menjadi umum dalam alat teks. Pada tahun 1980-an, morfologi dua tingkat Koskenniemi dan kompilasi aturan fonologi Kaplan dan Kay ke dalam transduser menetapkan teknologi keadaan-terbatas sebagai tulang punggung pemrosesan morfologi, sebuah pendekatan yang dikonsolidasikan dalam buku pegangan Beesley dan Karttunen.

Debates

Sejauh mana metode keadaan-terbatas dapat diskalakan?
Teknik keadaan-terbatas sangat efisien tetapi terbatas pada fenomena reguler; perdebatan menyangkut tugas pemrosesan bahasa mana yang paling baik dilayani olehnya dibandingkan model statistik atau saraf yang lebih kaya.

Key figures

  • Martin Kay
  • Ronald Kaplan
  • Kimmo Koskenniemi
  • Lauri Karttunen

Related topics

Seminal works

  • kaplan1994
  • beesley2003

Frequently asked questions

Mengapa menggunakan transduser keadaan-terbatas daripada hanya tabel pencarian untuk morfologi?
Transduser secara ringkas mengkodekan alternasi sistematis dan dapat menganalisis atau menghasilkan bentuk kata yang belum pernah dilihatnya, sedangkan tabel hanya menyimpan bentuk yang secara eksplisit tercantum di dalamnya.

Methods for this concept

Related concepts