การแยกวิเคราะห์และรูปแบบไวยากรณ์
การกู้คืนโครงสร้างทางไวยากรณ์ของประโยคด้วยเครื่องจักร: รูปแบบไวยากรณ์ที่อธิบายโครงสร้างที่ถูกต้องและอัลกอริทึมที่ใช้ในการคำนวณ ตั้งแต่แผนภูมิต้นไม้แบบองค์ประกอบไปจนถึงกราฟความสัมพันธ์
Definition
การแยกวิเคราะห์คือการกำหนดโครงสร้างทางไวยากรณ์ให้กับสายอักขระอินพุตด้วยคอมพิวเตอร์ตามไวยากรณ์; รูปแบบไวยากรณ์คือระบบที่ใช้ระบุว่าโครงสร้างใดถูกต้องตามกฎ
Scope
ครอบคลุมการวิเคราะห์ทางวากยสัมพันธ์ในภาษาศาสตร์คอมพิวเตอร์ — การแยกวิเคราะห์แบบองค์ประกอบที่ไม่ขึ้นกับบริบทและอัลกอริทึมเชิงความน่าจะเป็นและแบบแผนภูมิ การแยกวิเคราะห์แบบความสัมพันธ์ รูปแบบไวยากรณ์หลักที่นอกเหนือจากไวยากรณ์ที่ไม่ขึ้นกับบริบท และงานการติดป้ายลำดับ (เช่น การติดป้ายชนิดของคำ) ที่ใช้ในการแยกวิเคราะห์ ไม่รวมการตีความเชิงความหมาย ซึ่งจัดการในความหมายเชิงคอมพิวเตอร์ และทฤษฎีออโตมาตาพื้นฐาน ซึ่งครอบคลุมในส่วนพื้นฐาน
Sub-topics
Core questions
- จะกำหนดแผนภูมิต้นไม้ทางวากยสัมพันธ์หรือกราฟความสัมพันธ์ให้กับประโยคได้อย่างมีประสิทธิภาพได้อย่างไร?
- รูปแบบไวยากรณ์ใดที่สามารถจับไวยากรณ์ของภาษาธรรมชาติได้อย่างเพียงพอ?
- ความน่าจะเป็นช่วยในการขจัดความกำกวมระหว่างการแยกวิเคราะห์ที่เป็นไปได้หลายแบบได้อย่างไร?
- การติดป้ายและการแบ่งกลุ่มคำสนับสนุนการแยกวิเคราะห์แบบเต็มรูปแบบได้อย่างไร?
Key concepts
- การแยกวิเคราะห์แบบองค์ประกอบ
- การแยกวิเคราะห์แบบความสัมพันธ์
- ไวยากรณ์ไม่ขึ้นกับบริบท
- การแยกวิเคราะห์แบบแผนภูมิ
- ไวยากรณ์เชิงความน่าจะเป็น
- การติดป้ายชนิดของคำ
- คลังต้นไม้
- ความกำกวมเชิงโครงสร้าง
Key theories
- การแยกวิเคราะห์แบบแผนภูมิ
- อัลกอริทึมการเขียนโปรแกรมเชิงพลวัต เช่น CKY และ Earley ที่คำนวณการวิเคราะห์ที่เป็นไปได้ทั้งหมดของประโยคในเวลาพหุนามโดยการใช้การแยกวิเคราะห์ย่อยที่ใช้ร่วมกันซ้ำ
- ไวยากรณ์ไม่ขึ้นกับบริบทเชิงความน่าจะเป็น
- การกำหนดความน่าจะเป็นให้กับกฎไวยากรณ์เพื่อให้สามารถเลือกการแยกวิเคราะห์ที่มีแนวโน้มมากที่สุดได้ ซึ่งช่วยแก้ปัญหาความกำกวมเชิงโครงสร้างที่แพร่หลายในภาษาธรรมชาติ
History
การแยกวิเคราะห์ในยุคแรกอาศัยไวยากรณ์ที่สร้างด้วยมือและการค้นหาแบบละเอียด; อัลกอริทึม CKY และ Earley ทำให้การแยกวิเคราะห์แบบไม่ขึ้นกับบริบทมีประสิทธิภาพ การเผยแพร่คลังต้นไม้ (treebanks) ในทศวรรษ 1990 ทำให้เกิดการแยกวิเคราะห์เชิงความน่าจะเป็นที่ขับเคลื่อนด้วยข้อมูล และในทศวรรษ 2000 การแยกวิเคราะห์แบบความสัมพันธ์ก็ได้รับความนิยมเนื่องจากความแข็งแกร่งข้ามภาษา ซึ่งต่อมาถูกรวมเข้ากับตัวแยกวิเคราะห์แบบโครงข่ายประสาทเทียม
Debates
- การนำเสนอแบบองค์ประกอบเทียบกับแบบความสัมพันธ์
- ไม่ว่าวากยสัมพันธ์จะแสดงได้ดีที่สุดในรูปของวลีที่ซ้อนกันหรือในรูปของความสัมพันธ์หัว-ผู้ตามที่มีป้ายกำกับ; ทั้งสองวิธีเป็นที่นิยมใช้กันอย่างแพร่หลาย โดยแบบความสัมพันธ์มักได้รับความนิยมสำหรับภาษาที่มีลำดับคำอิสระและงานปลายน้ำ
Key figures
- Jay Earley
- Joakim Nivre
- Christopher Manning
- Mitchell Marcus
Related topics
Seminal works
- manning1999
- kubler2009
- jurafsky2025
Frequently asked questions
- ทำไมการแยกวิเคราะห์จึงเป็นเรื่องยากหากทราบกฎไวยากรณ์?
- ประโยคธรรมชาติมีความกำกวมอย่างมาก: สายอักขระเดียวสามารถมีโครงสร้างที่ถูกต้องได้หลายแบบ ดังนั้นการแยกวิเคราะห์จึงไม่เพียงแต่ต้องค้นหาโครงสร้างเท่านั้น แต่ยังต้องจัดอันดับโครงสร้างเหล่านั้นด้วย ซึ่งเป็นเหตุผลว่าทำไมแบบจำลองเชิงความน่าจะเป็นและแบบจำลองที่เรียนรู้จึงมีความสำคัญอย่างยิ่ง