การประเมินและการกำกับข้อมูล
ระเบียบวิธีในการวัดระบบประมวลผลภาษา: การสร้างคลังข้อมูลกำกับ, การหาปริมาณความสอดคล้องระหว่างผู้กำกับข้อมูล, และการให้คะแนนผลลัพธ์ของระบบด้วยเมตริกที่ช่วยให้การเปรียบเทียบเป็นไปอย่างยุติธรรม
Definition
การประเมินและการกำกับข้อมูลคือชุดของแนวปฏิบัติสำหรับการผลิตข้อมูลที่มีป้ายกำกับที่เชื่อถือได้ และสำหรับการวัดว่าระบบคอมพิวเตอร์สามารถสร้างซ้ำหรือทำนายป้ายกำกับเหล่านั้นได้ดีเพียงใด
Scope
ครอบคลุมโครงสร้างพื้นฐานเชิงประจักษ์ของภาษาศาสตร์เชิงคำนวณ — แผนการกำกับข้อมูลด้วยมือและแนวปฏิบัติ, สถิติความสอดคล้องระหว่างผู้กำกับข้อมูล เช่น ค่าแคปปา, การแบ่งข้อมูลเป็นชุดฝึก/ชุดพัฒนา/ชุดทดสอบ, และเมตริกการประเมินผล รวมถึงความแม่นยำ (precision), การระลึก (recall), ค่า F-measure, ความถูกต้อง (accuracy), และคะแนนเฉพาะงาน เช่น BLEU หัวข้อนี้กล่าวถึงข้อกังวลด้านความถูกต้องและความสามารถในการทำซ้ำ แต่ไม่รวมถึงการออกแบบระบบปลายน้ำแต่ละระบบ
Core questions
- เราจะวัดได้อย่างไรว่าผู้กำกับข้อมูลมีความสอดคล้องกัน และเหตุใดความสอดคล้องที่ปรับแก้โอกาสจึงมีความสำคัญ?
- เมตริกใดที่เหมาะสมสำหรับงานการจำแนกประเภท, การกำกับลำดับ, และการสร้างข้อความ?
- การแบ่งข้อมูลเป็นชุดฝึก/ชุดพัฒนา/ชุดทดสอบช่วยป้องกันการเกิดภาวะโอเวอร์ฟิตติ้งและผลลัพธ์ที่สูงเกินจริงได้อย่างไร?
- อะไรที่ทำให้การประเมินสามารถทำซ้ำได้และเปรียบเทียบกันได้ในการศึกษาต่างๆ?
Key concepts
- ความสอดคล้องระหว่างผู้กำกับข้อมูล
- สถิติแคปปา
- ความแม่นยำและการระลึก
- ค่า F-measure
- การแบ่งข้อมูลเป็นชุดฝึก/ชุดพัฒนา/ชุดทดสอบ
- BLEU
- แนวทางการกำกับข้อมูล
- มาตรฐานทองคำ
Key theories
- ความสอดคล้องที่ปรับแก้โอกาส
- ความน่าเชื่อถือของการกำกับข้อมูลควรวัดด้วยสัมประสิทธิ์เช่น Cohen's หรือ Fleiss' kappa ซึ่งหักลบความสอดคล้องที่คาดว่าจะเกิดขึ้นโดยบังเอิญ ไม่ใช่เปอร์เซ็นต์ความสอดคล้องดิบ
- การประเมินอัตโนมัติโดยการทับซ้อนของ n-gram
- คุณภาพของการสร้างข้อความสามารถประมาณได้ง่ายโดยการเปรียบเทียบผลลัพธ์ของระบบกับข้อมูลอ้างอิงผ่านการทับซ้อนของ n-gram เช่นใน BLEU ซึ่งช่วยให้สามารถทำซ้ำได้อย่างรวดเร็วแม้จะมีข้อจำกัดที่เป็นที่ทราบกันดี
History
เมื่อวิธีการที่ใช้คลังข้อมูลแพร่หลายในทศวรรษ 1990 สาขาวิชานี้ต้องการมาตรฐานร่วมกันสำหรับการกำกับข้อมูลและการให้คะแนนระบบ สถิติความสอดคล้องที่ยืมมาจากวิธีการวิเคราะห์เนื้อหาได้ถูกนำมาปรับใช้กับการกำกับข้อมูลทางภาษาศาสตร์ ซึ่งได้รับการสำรวจอย่างละเอียดโดย Artstein และ Poesio ในขณะที่เมตริกเช่น BLEU (2002) ทำให้การประเมินการสร้างข้อความอัตโนมัติสามารถทำได้และเป็นรูปเป็นร่างของวัฒนธรรมงานร่วม
Debates
- เมตริกอัตโนมัติวัดคุณภาพได้จริงหรือ?
- เมตริกเช่น BLEU มีความสัมพันธ์เพียงหลวมๆ กับการตัดสินของมนุษย์ โดยเฉพาะอย่างยิ่งสำหรับการสร้างข้อความที่คล่องแคล่ว ซึ่งก่อให้เกิดการถกเถียงอย่างต่อเนื่องว่าเมื่อใดที่คะแนนอัตโนมัติเชื่อถือได้ และเมื่อใดที่จำเป็นต้องมีการประเมินโดยมนุษย์
Key figures
- Ron Artstein
- Massimo Poesio
- Kishore Papineni
Related topics
Seminal works
- artstein2008
- papineni2002
Frequently asked questions
- ทำไมไม่รายงานแค่ความถูกต้อง (accuracy)?
- ความถูกต้องอาจทำให้เข้าใจผิดได้เมื่อคลาสไม่สมดุล หรือเมื่อทั้งผลบวกปลอมและผลลบปลอมมีความสำคัญต่างกัน ความแม่นยำ (precision), การระลึก (recall), และ F-measure ให้ภาพข้อมูลที่เป็นประโยชน์มากกว่าสำหรับงานภาษาศาสตร์ส่วนใหญ่