ScholarGate
ผู้ช่วย

การวิเคราะห์โครงสร้างประโยค (Syntactic Parsing)

การวิเคราะห์โครงสร้างประโยค (Syntactic parsing) คือภารกิจในการกู้คืนโครงสร้างทางไวยากรณ์ของประโยค โดยการกำหนดโครงสร้างแบบต้นไม้ (constituency tree) หรือโครงสร้างแบบพึ่งพา (dependency structure) ที่แสดงให้เห็นว่าคำต่างๆ รวมกันและมีความสัมพันธ์กันอย่างไร

ค้นหาหัวข้อด้วย PaperMindเร็ว ๆ นี้Find papers & topics
Tools & resources
ดาวน์โหลดสไลด์
Learn & explore
วิดีโอเร็ว ๆ นี้

Definition

การวิเคราะห์โครงสร้างประโยค (Syntactic parsing) คือการแปลงประโยคให้เป็นตัวแทนของโครงสร้างทางไวยากรณ์ ซึ่งโดยทั่วไปคือโครงสร้างต้นไม้แบบองค์ประกอบ (constituency (phrase-structure) tree) หรือกราฟความสัมพันธ์แบบพึ่งพา (dependency graph) ตามหลักไวยากรณ์หรือแบบจำลองที่เรียนรู้จากข้อมูลที่มีการกำกับ (annotated data)

Scope

หัวข้อนี้ครอบคลุมการวิเคราะห์โครงสร้างประโยค: ไวยากรณ์ปราศจากบริบท (context-free) และไวยากรณ์ที่ซับซ้อนยิ่งขึ้น, การวิเคราะห์โครงสร้างแบบองค์ประกอบ (constituency parsing) (โครงสร้างต้นไม้วลี) และการวิเคราะห์โครงสร้างแบบพึ่งพา (dependency parsing) (ความสัมพันธ์ระหว่างคำหลักและคำที่พึ่งพา), อัลกอริทึมการวิเคราะห์แบบแผนภูมิแบบคลาสสิก เช่น CKY และ Earley, รวมถึงการวิเคราะห์เชิงความน่าจะเป็นและแบบขับเคลื่อนด้วยข้อมูลที่ฝึกฝนจากคลังข้อมูลต้นไม้ (treebanks) นอกจากนี้ยังกล่าวถึงวิธีการแสดงและแก้ไขความกำกวมทางวากยสัมพันธ์ การใช้โครงสร้างทางวากยสัมพันธ์เพื่อคำนวณความหมายจะครอบคลุมภายใต้หัวข้ออรรถศาสตร์เชิงคำนวณ (computational semantics)

Core questions

  • โครงสร้างทางไวยากรณ์ของประโยคถูกนำเสนออย่างไร ในรูปแบบขององค์ประกอบหรือความสัมพันธ์แบบพึ่งพา?
  • อัลกอริทึมการวิเคราะห์แบบแผนภูมิสำรวจการวิเคราะห์ที่เป็นไปได้มากมายของประโยคได้อย่างมีประสิทธิภาพได้อย่างไร?
  • ความกำกวมทางวากยสัมพันธ์ได้รับการจัดการอย่างไร และแบบจำลองเชิงความน่าจะเป็นเลือกการวิเคราะห์โครงสร้างประโยคอย่างไร?
  • ตัววิเคราะห์โครงสร้างประโยคได้รับการฝึกฝนและประเมินโดยใช้คลังข้อมูลที่มีการกำกับ (treebanks) ได้อย่างไร?

Key concepts

  • โครงสร้างต้นไม้แบบองค์ประกอบ (constituency (phrase-structure) trees)
  • โครงสร้างแบบพึ่งพา (dependency structures)
  • ไวยากรณ์ปราศจากบริบท (context-free grammar)
  • การวิเคราะห์แบบ CKY และ Earley
  • ไวยากรณ์ปราศจากบริบทเชิงความน่าจะเป็น (probabilistic context-free grammar)
  • ความกำกวมทางวากยสัมพันธ์ (syntactic ambiguity)
  • คลังข้อมูลต้นไม้ (treebanks)
  • แท็กชนิดของคำ (part-of-speech tags)

Key theories

ไวยากรณ์ปราศจากบริบทและการวิเคราะห์แบบแผนภูมิ
ไวยากรณ์ปราศจากบริบทจำลองโครงสร้างวลี และตัววิเคราะห์แบบแผนภูมิที่ใช้การเขียนโปรแกรมเชิงพลวัต เช่น อัลกอริทึม CKY และ Earley สามารถกู้คืนการวิเคราะห์โครงสร้างประโยคที่ถูกต้องทั้งหมดได้ในเวลาพหุนาม โดยการนำการวิเคราะห์ของส่วนย่อยกลับมาใช้ใหม่
การวิเคราะห์เชิงความน่าจะเป็น
การกำหนดความน่าจะเป็นให้กับกฎไวยากรณ์ (เช่นเดียวกับในไวยากรณ์ปราศจากบริบทเชิงความน่าจะเป็น) ช่วยให้ตัววิเคราะห์สามารถจัดอันดับการวิเคราะห์ที่แข่งขันกันและเลือกโครงสร้างที่มีแนวโน้มมากที่สุด ซึ่งเป็นการจัดการกับความกำกวมที่แพร่หลายในวากยสัมพันธ์ของภาษาธรรมชาติ
คลังข้อมูลต้นไม้และการวิเคราะห์แบบขับเคลื่อนด้วยข้อมูล
คลังข้อมูลขนาดใหญ่ที่มีการกำกับ เช่น Penn Treebank ได้จัดหาข้อมูลการฝึกฝนและการประเมินที่เปลี่ยนการวิเคราะห์โครงสร้างประโยคให้เป็นภารกิจที่ขับเคลื่อนด้วยข้อมูล ทำให้สามารถสร้างตัววิเคราะห์เชิงสถิติและต่อมาเป็นตัววิเคราะห์โครงข่ายประสาทเทียมที่เรียนรู้จากโครงสร้างที่มนุษย์กำกับไว้

Clinical relevance

การวิเคราะห์โครงสร้างประโยคสนับสนุนการตรวจสอบไวยากรณ์ การสกัดข้อมูล การตอบคำถาม และการแปลภาษาด้วยเครื่อง โดยการเปิดเผยว่าคำต่างๆ จัดกลุ่มและสัมพันธ์กันอย่างไร โดยเฉพาะอย่างยิ่งโครงสร้างแบบพึ่งพาถูกนำมาใช้อย่างแพร่หลายเป็นข้อมูลนำเข้าสำหรับระบบอรรถศาสตร์และการสกัดข้อมูลขั้นปลาย

History

การวิเคราะห์โครงสร้างประโยคมีพื้นฐานมาจากไวยากรณ์รูปนัยของ Chomsky; อัลกอริทึม CKY (ทศวรรษ 1960) และ Earley (ทศวรรษ 1970) ทำให้การวิเคราะห์ไวยากรณ์ปราศจากบริบทมีประสิทธิภาพ Penn Treebank (1993) เป็นตัวเร่งให้เกิดการวิเคราะห์เชิงสถิติ และตัววิเคราะห์เชิงความน่าจะเป็นและต่อมาเป็นตัววิเคราะห์โครงข่ายประสาทเทียมได้ปรับปรุงความแม่นยำและความทนทานบนข้อความจริงอย่างต่อเนื่อง

Key figures

  • Noam Chomsky
  • Tadao Kasami
  • Jay Earley
  • Mitchell P. Marcus
  • Christopher D. Manning

Related topics

Seminal works

  • marcus1993
  • jurafsky2023

Frequently asked questions

ความแตกต่างระหว่างการวิเคราะห์แบบองค์ประกอบและการวิเคราะห์แบบพึ่งพาคืออะไร?
การวิเคราะห์แบบองค์ประกอบจะจัดกลุ่มคำเป็นวลีที่ซ้อนกัน (เช่น วลีคำนามและวลีคำกริยา) ซึ่งสร้างเป็นโครงสร้างต้นไม้ขององค์ประกอบ ในทางกลับกัน การวิเคราะห์แบบพึ่งพาจะเชื่อมโยงแต่ละคำกับคำที่มันพึ่งพา (คำหลัก) ซึ่งสร้างเป็นกราฟของความสัมพันธ์ทางไวยากรณ์ ทั้งสองวิธีจับโครงสร้างทางวากยสัมพันธ์แต่เน้นในแง่มุมที่แตกต่างกัน
เหตุใดการวิเคราะห์โครงสร้างประโยคจึงเป็นเรื่องยาก แม้ว่าไวยากรณ์จะถูกกำหนดไว้อย่างดีแล้วก็ตาม?
ประโยคในภาษาธรรมชาติมีความกำกวมสูง: ประโยคเดียวสามารถมีโครงสร้างทางไวยากรณ์ที่ถูกต้องได้หลายแบบ และจำนวนอาจเพิ่มขึ้นอย่างรวดเร็วตามความยาวของประโยค การเลือกการวิเคราะห์ที่ตั้งใจไว้ต้องอาศัยความชอบเชิงสถิติหรือที่เรียนรู้ ไม่ใช่แค่ไวยากรณ์ ซึ่งเป็นสิ่งที่ทำให้การวิเคราะห์โครงสร้างประโยคเป็นเรื่องที่ท้าทาย

Methods for this concept

Related concepts