ScholarGate
ผู้ช่วย

รากฐานของภาษาศาสตร์เชิงคำนวณ

รากฐานทางคณิตศาสตร์และระเบียบวิธีของภาษาศาสตร์เชิงคำนวณ: ไวยากรณ์รูปนัย, ออโตมาตา, เทคนิคสถานะจำกัด, แบบจำลองภาษาเชิงความน่าจะเป็น และแนวปฏิบัติการประเมินผลที่ช่วยให้ระบบต่างๆ สามารถเปรียบเทียบกันได้อย่างแม่นยำ

ค้นหาหัวข้อด้วย PaperMindเร็ว ๆ นี้Find papers & topics
Tools & resources
ดาวน์โหลดสไลด์
Learn & explore
วิดีโอเร็ว ๆ นี้

Definition

รากฐานของภาษาศาสตร์เชิงคำนวณคือการศึกษาหลักการพื้นฐานเชิงรูปนัย, อัลกอริทึม และสถิติที่ใช้ในการนำเสนอและประมวลผลภาษามนุษย์ด้วยเครื่องจักร

Scope

สาขานี้ครอบคลุมนามธรรมที่เป็นรากฐานของการประมวลผลภาษาเชิงคำนวณ ซึ่งรวมถึงลำดับชั้นของชอมสกี (Chomsky hierarchy) ของภาษาเชิงรูปนัยและออโตมาตาที่จดจำภาษาเหล่านั้น, นิพจน์ปรกติ (regular expressions) และตัวแปลงสถานะจำกัด (finite-state transducers) ในฐานะเครื่องมือเชิงปฏิบัติสำหรับการแยกคำ (tokenization) และสัณฐานวิทยา (morphology), แบบจำลองภาษาแบบ n-gram และเชิงความน่าจะเป็น, และกลไกการทดลอง — คลังข้อมูล (corpora), การกำกับข้อมูล (annotation), การแบ่งชุดข้อมูลสำหรับฝึกฝน/ทดสอบ (train/test splits) และเมตริกการประเมินผล — ซึ่งเป็นรากฐานของงานเชิงประจักษ์ ไม่รวมถึงการประยุกต์ใช้ปลายน้ำที่เฉพาะเจาะจงและการแยกวิเคราะห์เชิงลึก (deep parsing) ซึ่งจะกล่าวถึงในสาขาของตนเอง

Sub-topics

Core questions

  • ภาษาเชิงรูปนัยมีกี่ประเภท และออโตมาตาใดที่สามารถจดจำภาษาเหล่านั้นได้?
  • วิธีการสถานะจำกัดสามารถสร้างแบบจำลองการแยกคำ การสะกดคำ และสัณฐานวิทยาได้อย่างมีประสิทธิภาพได้อย่างไร?
  • เรากำหนดความน่าจะเป็นให้กับลำดับของคำได้อย่างไร และเหตุใดจึงเป็นประโยชน์?
  • ระบบประมวลผลภาษาควรได้รับการประเมินอย่างไรเพื่อให้ผลลัพธ์สามารถเปรียบเทียบและทำซ้ำได้?

Key concepts

  • ลำดับชั้นของชอมสกี
  • ออโตมาตาสถานะจำกัด
  • นิพจน์ปรกติ
  • ไวยากรณ์ปราศจากบริบท
  • แบบจำลอง n-gram
  • การปรับเรียบ
  • ความสับสน
  • คลังข้อมูลและการกำกับข้อมูล

Key theories

ลำดับชั้นของชอมสกี
ลำดับชั้นการบรรจุของประเภทภาษาเชิงรูปนัย (ปรกติ, ปราศจากบริบท, ขึ้นกับบริบท, แจงนับได้แบบเรียกซ้ำ) โดยแต่ละประเภทเชื่อมโยงกับประเภทของไวยากรณ์และเครื่องจักรนามธรรม ซึ่งกำหนดว่าต้องใช้พลังการคำนวณมากน้อยเพียงใดในการอธิบายปรากฏการณ์ภาษามนุษย์
การสร้างแบบจำลองภาษาเชิงความน่าจะเป็น
การมองภาษาเป็นกระบวนการสุ่มและประมาณค่าความน่าจะเป็นของลำดับคำ โดยทั่วไปผ่านแบบจำลอง n-gram พร้อมการปรับเรียบ ซึ่งเป็นรากฐานสำหรับการรู้จำเสียงพูด การแก้ไขการสะกดคำ และการสร้างภาษา

History

ภาษาศาสตร์เชิงคำนวณได้รับแก่นหลักเชิงรูปนัยมาจากงานทศวรรษ 1950 เกี่ยวกับทฤษฎีภาษาเชิงรูปนัย (ชอมสกี) และทฤษฎีสารสนเทศ (แชนนอน) ซึ่งร่วมกันเสนอทั้งไวยากรณ์เชิงสัญลักษณ์และแบบจำลองภาษาเชิงความน่าจะเป็น วิธีการสถานะจำกัดพัฒนาขึ้นตลอดทศวรรษ 1980 ในฐานะเครื่องมือที่มีประสิทธิภาพสำหรับสัณฐานวิทยาและสัทวิทยา ในขณะที่การปฏิวัติทางสถิติในทศวรรษ 1990 ซึ่งบันทึกโดย Manning และ Schütze ทำให้การสร้างแบบจำลองเชิงความน่าจะเป็นโดยใช้คลังข้อมูลกลายเป็นกระบวนทัศน์เชิงประจักษ์ที่โดดเด่น

Debates

ไวยากรณ์เชิงสัญลักษณ์เทียบกับแบบจำลองทางสถิติ
ไม่ว่าภาษามนุษย์จะถูกจับภาพได้ดีที่สุดด้วยกฎรูปนัยที่สร้างขึ้นด้วยมือ หรือด้วยการแจกแจงความน่าจะเป็นที่ประมาณจากข้อมูล สาขาวิชานี้ได้บรรจบกันส่วนใหญ่ไปสู่แนวทางแบบผสมผสานและขับเคลื่อนด้วยข้อมูล ในขณะที่ยังคงรักษาไวยากรณ์รูปนัยไว้เป็นเครื่องมือวิเคราะห์

Key figures

  • Noam Chomsky
  • Claude Shannon
  • Daniel Jurafsky
  • James H. Martin
  • Christopher Manning

Related topics

Seminal works

  • chomsky1956
  • manning1999
  • jurafsky2025

Frequently asked questions

เหตุใดนักภาษาศาสตร์เชิงคำนวณจึงให้ความสำคัญกับลำดับชั้นของชอมสกี?
มันบอกคุณถึงกลไกการคำนวณขั้นต่ำที่ปรากฏการณ์หนึ่งต้องการ: รูปแบบปกติสามารถจัดการได้ด้วยเครื่องมือสถานะจำกัดที่รวดเร็ว ในขณะที่ปรากฏการณ์เช่นอนุประโยคซ้อนกันต้องการพลังงานอย่างน้อยระดับปราศจากบริบท การเลือกระดับที่เหมาะสมจะทำให้ระบบทั้งเพียงพอและมีประสิทธิภาพ
การสร้างแบบจำลองภาษาเหมือนกับแบบจำลองภาษาขนาดใหญ่หรือไม่?
ทั้งสองมีภารกิจหลักเดียวกัน — การกำหนดความน่าจะเป็นให้กับลำดับคำ — แต่แบบจำลองภาษาแบบคลาสสิกเป็นตัวนับ n-gram ในขณะที่แบบจำลองภาษาขนาดใหญ่ที่ทันสมัยใช้โครงข่ายประสาทเทียม แนวคิดพื้นฐานเหมือนกัน วิธีการประมาณค่าแตกต่างกัน

Methods for this concept

Related concepts