รากฐานของภาษาศาสตร์เชิงคำนวณ
รากฐานทางคณิตศาสตร์และระเบียบวิธีของภาษาศาสตร์เชิงคำนวณ: ไวยากรณ์รูปนัย, ออโตมาตา, เทคนิคสถานะจำกัด, แบบจำลองภาษาเชิงความน่าจะเป็น และแนวปฏิบัติการประเมินผลที่ช่วยให้ระบบต่างๆ สามารถเปรียบเทียบกันได้อย่างแม่นยำ
Definition
รากฐานของภาษาศาสตร์เชิงคำนวณคือการศึกษาหลักการพื้นฐานเชิงรูปนัย, อัลกอริทึม และสถิติที่ใช้ในการนำเสนอและประมวลผลภาษามนุษย์ด้วยเครื่องจักร
Scope
สาขานี้ครอบคลุมนามธรรมที่เป็นรากฐานของการประมวลผลภาษาเชิงคำนวณ ซึ่งรวมถึงลำดับชั้นของชอมสกี (Chomsky hierarchy) ของภาษาเชิงรูปนัยและออโตมาตาที่จดจำภาษาเหล่านั้น, นิพจน์ปรกติ (regular expressions) และตัวแปลงสถานะจำกัด (finite-state transducers) ในฐานะเครื่องมือเชิงปฏิบัติสำหรับการแยกคำ (tokenization) และสัณฐานวิทยา (morphology), แบบจำลองภาษาแบบ n-gram และเชิงความน่าจะเป็น, และกลไกการทดลอง — คลังข้อมูล (corpora), การกำกับข้อมูล (annotation), การแบ่งชุดข้อมูลสำหรับฝึกฝน/ทดสอบ (train/test splits) และเมตริกการประเมินผล — ซึ่งเป็นรากฐานของงานเชิงประจักษ์ ไม่รวมถึงการประยุกต์ใช้ปลายน้ำที่เฉพาะเจาะจงและการแยกวิเคราะห์เชิงลึก (deep parsing) ซึ่งจะกล่าวถึงในสาขาของตนเอง
Sub-topics
Core questions
- ภาษาเชิงรูปนัยมีกี่ประเภท และออโตมาตาใดที่สามารถจดจำภาษาเหล่านั้นได้?
- วิธีการสถานะจำกัดสามารถสร้างแบบจำลองการแยกคำ การสะกดคำ และสัณฐานวิทยาได้อย่างมีประสิทธิภาพได้อย่างไร?
- เรากำหนดความน่าจะเป็นให้กับลำดับของคำได้อย่างไร และเหตุใดจึงเป็นประโยชน์?
- ระบบประมวลผลภาษาควรได้รับการประเมินอย่างไรเพื่อให้ผลลัพธ์สามารถเปรียบเทียบและทำซ้ำได้?
Key concepts
- ลำดับชั้นของชอมสกี
- ออโตมาตาสถานะจำกัด
- นิพจน์ปรกติ
- ไวยากรณ์ปราศจากบริบท
- แบบจำลอง n-gram
- การปรับเรียบ
- ความสับสน
- คลังข้อมูลและการกำกับข้อมูล
Key theories
- ลำดับชั้นของชอมสกี
- ลำดับชั้นการบรรจุของประเภทภาษาเชิงรูปนัย (ปรกติ, ปราศจากบริบท, ขึ้นกับบริบท, แจงนับได้แบบเรียกซ้ำ) โดยแต่ละประเภทเชื่อมโยงกับประเภทของไวยากรณ์และเครื่องจักรนามธรรม ซึ่งกำหนดว่าต้องใช้พลังการคำนวณมากน้อยเพียงใดในการอธิบายปรากฏการณ์ภาษามนุษย์
- การสร้างแบบจำลองภาษาเชิงความน่าจะเป็น
- การมองภาษาเป็นกระบวนการสุ่มและประมาณค่าความน่าจะเป็นของลำดับคำ โดยทั่วไปผ่านแบบจำลอง n-gram พร้อมการปรับเรียบ ซึ่งเป็นรากฐานสำหรับการรู้จำเสียงพูด การแก้ไขการสะกดคำ และการสร้างภาษา
History
ภาษาศาสตร์เชิงคำนวณได้รับแก่นหลักเชิงรูปนัยมาจากงานทศวรรษ 1950 เกี่ยวกับทฤษฎีภาษาเชิงรูปนัย (ชอมสกี) และทฤษฎีสารสนเทศ (แชนนอน) ซึ่งร่วมกันเสนอทั้งไวยากรณ์เชิงสัญลักษณ์และแบบจำลองภาษาเชิงความน่าจะเป็น วิธีการสถานะจำกัดพัฒนาขึ้นตลอดทศวรรษ 1980 ในฐานะเครื่องมือที่มีประสิทธิภาพสำหรับสัณฐานวิทยาและสัทวิทยา ในขณะที่การปฏิวัติทางสถิติในทศวรรษ 1990 ซึ่งบันทึกโดย Manning และ Schütze ทำให้การสร้างแบบจำลองเชิงความน่าจะเป็นโดยใช้คลังข้อมูลกลายเป็นกระบวนทัศน์เชิงประจักษ์ที่โดดเด่น
Debates
- ไวยากรณ์เชิงสัญลักษณ์เทียบกับแบบจำลองทางสถิติ
- ไม่ว่าภาษามนุษย์จะถูกจับภาพได้ดีที่สุดด้วยกฎรูปนัยที่สร้างขึ้นด้วยมือ หรือด้วยการแจกแจงความน่าจะเป็นที่ประมาณจากข้อมูล สาขาวิชานี้ได้บรรจบกันส่วนใหญ่ไปสู่แนวทางแบบผสมผสานและขับเคลื่อนด้วยข้อมูล ในขณะที่ยังคงรักษาไวยากรณ์รูปนัยไว้เป็นเครื่องมือวิเคราะห์
Key figures
- Noam Chomsky
- Claude Shannon
- Daniel Jurafsky
- James H. Martin
- Christopher Manning
Related topics
Seminal works
- chomsky1956
- manning1999
- jurafsky2025
Frequently asked questions
- เหตุใดนักภาษาศาสตร์เชิงคำนวณจึงให้ความสำคัญกับลำดับชั้นของชอมสกี?
- มันบอกคุณถึงกลไกการคำนวณขั้นต่ำที่ปรากฏการณ์หนึ่งต้องการ: รูปแบบปกติสามารถจัดการได้ด้วยเครื่องมือสถานะจำกัดที่รวดเร็ว ในขณะที่ปรากฏการณ์เช่นอนุประโยคซ้อนกันต้องการพลังงานอย่างน้อยระดับปราศจากบริบท การเลือกระดับที่เหมาะสมจะทำให้ระบบทั้งเพียงพอและมีประสิทธิภาพ
- การสร้างแบบจำลองภาษาเหมือนกับแบบจำลองภาษาขนาดใหญ่หรือไม่?
- ทั้งสองมีภารกิจหลักเดียวกัน — การกำหนดความน่าจะเป็นให้กับลำดับคำ — แต่แบบจำลองภาษาแบบคลาสสิกเป็นตัวนับ n-gram ในขณะที่แบบจำลองภาษาขนาดใหญ่ที่ทันสมัยใช้โครงข่ายประสาทเทียม แนวคิดพื้นฐานเหมือนกัน วิธีการประมาณค่าแตกต่างกัน