การวิเคราะห์โครงสร้างประโยค (Syntactic Parsing)
การวิเคราะห์โครงสร้างประโยค (Syntactic parsing) คือภารกิจในการกู้คืนโครงสร้างทางไวยากรณ์ของประโยค โดยการกำหนดโครงสร้างแบบต้นไม้ (constituency tree) หรือโครงสร้างแบบพึ่งพา (dependency structure) ที่แสดงให้เห็นว่าคำต่างๆ รวมกันและมีความสัมพันธ์กันอย่างไร
Definition
การวิเคราะห์โครงสร้างประโยค (Syntactic parsing) คือการแปลงประโยคให้เป็นตัวแทนของโครงสร้างทางไวยากรณ์ ซึ่งโดยทั่วไปคือโครงสร้างต้นไม้แบบองค์ประกอบ (constituency (phrase-structure) tree) หรือกราฟความสัมพันธ์แบบพึ่งพา (dependency graph) ตามหลักไวยากรณ์หรือแบบจำลองที่เรียนรู้จากข้อมูลที่มีการกำกับ (annotated data)
Scope
หัวข้อนี้ครอบคลุมการวิเคราะห์โครงสร้างประโยค: ไวยากรณ์ปราศจากบริบท (context-free) และไวยากรณ์ที่ซับซ้อนยิ่งขึ้น, การวิเคราะห์โครงสร้างแบบองค์ประกอบ (constituency parsing) (โครงสร้างต้นไม้วลี) และการวิเคราะห์โครงสร้างแบบพึ่งพา (dependency parsing) (ความสัมพันธ์ระหว่างคำหลักและคำที่พึ่งพา), อัลกอริทึมการวิเคราะห์แบบแผนภูมิแบบคลาสสิก เช่น CKY และ Earley, รวมถึงการวิเคราะห์เชิงความน่าจะเป็นและแบบขับเคลื่อนด้วยข้อมูลที่ฝึกฝนจากคลังข้อมูลต้นไม้ (treebanks) นอกจากนี้ยังกล่าวถึงวิธีการแสดงและแก้ไขความกำกวมทางวากยสัมพันธ์ การใช้โครงสร้างทางวากยสัมพันธ์เพื่อคำนวณความหมายจะครอบคลุมภายใต้หัวข้ออรรถศาสตร์เชิงคำนวณ (computational semantics)
Core questions
- โครงสร้างทางไวยากรณ์ของประโยคถูกนำเสนออย่างไร ในรูปแบบขององค์ประกอบหรือความสัมพันธ์แบบพึ่งพา?
- อัลกอริทึมการวิเคราะห์แบบแผนภูมิสำรวจการวิเคราะห์ที่เป็นไปได้มากมายของประโยคได้อย่างมีประสิทธิภาพได้อย่างไร?
- ความกำกวมทางวากยสัมพันธ์ได้รับการจัดการอย่างไร และแบบจำลองเชิงความน่าจะเป็นเลือกการวิเคราะห์โครงสร้างประโยคอย่างไร?
- ตัววิเคราะห์โครงสร้างประโยคได้รับการฝึกฝนและประเมินโดยใช้คลังข้อมูลที่มีการกำกับ (treebanks) ได้อย่างไร?
Key concepts
- โครงสร้างต้นไม้แบบองค์ประกอบ (constituency (phrase-structure) trees)
- โครงสร้างแบบพึ่งพา (dependency structures)
- ไวยากรณ์ปราศจากบริบท (context-free grammar)
- การวิเคราะห์แบบ CKY และ Earley
- ไวยากรณ์ปราศจากบริบทเชิงความน่าจะเป็น (probabilistic context-free grammar)
- ความกำกวมทางวากยสัมพันธ์ (syntactic ambiguity)
- คลังข้อมูลต้นไม้ (treebanks)
- แท็กชนิดของคำ (part-of-speech tags)
Key theories
- ไวยากรณ์ปราศจากบริบทและการวิเคราะห์แบบแผนภูมิ
- ไวยากรณ์ปราศจากบริบทจำลองโครงสร้างวลี และตัววิเคราะห์แบบแผนภูมิที่ใช้การเขียนโปรแกรมเชิงพลวัต เช่น อัลกอริทึม CKY และ Earley สามารถกู้คืนการวิเคราะห์โครงสร้างประโยคที่ถูกต้องทั้งหมดได้ในเวลาพหุนาม โดยการนำการวิเคราะห์ของส่วนย่อยกลับมาใช้ใหม่
- การวิเคราะห์เชิงความน่าจะเป็น
- การกำหนดความน่าจะเป็นให้กับกฎไวยากรณ์ (เช่นเดียวกับในไวยากรณ์ปราศจากบริบทเชิงความน่าจะเป็น) ช่วยให้ตัววิเคราะห์สามารถจัดอันดับการวิเคราะห์ที่แข่งขันกันและเลือกโครงสร้างที่มีแนวโน้มมากที่สุด ซึ่งเป็นการจัดการกับความกำกวมที่แพร่หลายในวากยสัมพันธ์ของภาษาธรรมชาติ
- คลังข้อมูลต้นไม้และการวิเคราะห์แบบขับเคลื่อนด้วยข้อมูล
- คลังข้อมูลขนาดใหญ่ที่มีการกำกับ เช่น Penn Treebank ได้จัดหาข้อมูลการฝึกฝนและการประเมินที่เปลี่ยนการวิเคราะห์โครงสร้างประโยคให้เป็นภารกิจที่ขับเคลื่อนด้วยข้อมูล ทำให้สามารถสร้างตัววิเคราะห์เชิงสถิติและต่อมาเป็นตัววิเคราะห์โครงข่ายประสาทเทียมที่เรียนรู้จากโครงสร้างที่มนุษย์กำกับไว้
Clinical relevance
การวิเคราะห์โครงสร้างประโยคสนับสนุนการตรวจสอบไวยากรณ์ การสกัดข้อมูล การตอบคำถาม และการแปลภาษาด้วยเครื่อง โดยการเปิดเผยว่าคำต่างๆ จัดกลุ่มและสัมพันธ์กันอย่างไร โดยเฉพาะอย่างยิ่งโครงสร้างแบบพึ่งพาถูกนำมาใช้อย่างแพร่หลายเป็นข้อมูลนำเข้าสำหรับระบบอรรถศาสตร์และการสกัดข้อมูลขั้นปลาย
History
การวิเคราะห์โครงสร้างประโยคมีพื้นฐานมาจากไวยากรณ์รูปนัยของ Chomsky; อัลกอริทึม CKY (ทศวรรษ 1960) และ Earley (ทศวรรษ 1970) ทำให้การวิเคราะห์ไวยากรณ์ปราศจากบริบทมีประสิทธิภาพ Penn Treebank (1993) เป็นตัวเร่งให้เกิดการวิเคราะห์เชิงสถิติ และตัววิเคราะห์เชิงความน่าจะเป็นและต่อมาเป็นตัววิเคราะห์โครงข่ายประสาทเทียมได้ปรับปรุงความแม่นยำและความทนทานบนข้อความจริงอย่างต่อเนื่อง
Key figures
- Noam Chomsky
- Tadao Kasami
- Jay Earley
- Mitchell P. Marcus
- Christopher D. Manning
Related topics
Seminal works
- marcus1993
- jurafsky2023
Frequently asked questions
- ความแตกต่างระหว่างการวิเคราะห์แบบองค์ประกอบและการวิเคราะห์แบบพึ่งพาคืออะไร?
- การวิเคราะห์แบบองค์ประกอบจะจัดกลุ่มคำเป็นวลีที่ซ้อนกัน (เช่น วลีคำนามและวลีคำกริยา) ซึ่งสร้างเป็นโครงสร้างต้นไม้ขององค์ประกอบ ในทางกลับกัน การวิเคราะห์แบบพึ่งพาจะเชื่อมโยงแต่ละคำกับคำที่มันพึ่งพา (คำหลัก) ซึ่งสร้างเป็นกราฟของความสัมพันธ์ทางไวยากรณ์ ทั้งสองวิธีจับโครงสร้างทางวากยสัมพันธ์แต่เน้นในแง่มุมที่แตกต่างกัน
- เหตุใดการวิเคราะห์โครงสร้างประโยคจึงเป็นเรื่องยาก แม้ว่าไวยากรณ์จะถูกกำหนดไว้อย่างดีแล้วก็ตาม?
- ประโยคในภาษาธรรมชาติมีความกำกวมสูง: ประโยคเดียวสามารถมีโครงสร้างทางไวยากรณ์ที่ถูกต้องได้หลายแบบ และจำนวนอาจเพิ่มขึ้นอย่างรวดเร็วตามความยาวของประโยค การเลือกการวิเคราะห์ที่ตั้งใจไว้ต้องอาศัยความชอบเชิงสถิติหรือที่เรียนรู้ ไม่ใช่แค่ไวยากรณ์ ซึ่งเป็นสิ่งที่ทำให้การวิเคราะห์โครงสร้างประโยคเป็นเรื่องที่ท้าทาย