ทำไมไม่รายงานแค่ความถูกต้อง (accuracy)?

ความถูกต้องอาจทำให้เข้าใจผิดได้เมื่อคลาสไม่สมดุล หรือเมื่อทั้งผลบวกปลอมและผลลบปลอมมีความสำคัญต่างกัน ความแม่นยำ (precision), การระลึก (recall), และ F-measure ให้ภาพข้อมูลที่เป็นประโยชน์มากกว่าสำหรับงานภาษาศาสตร์ส่วนใหญ่

การประเมินและการกำกับข้อมูล

ระเบียบวิธีในการวัดระบบประมวลผลภาษา: การสร้างคลังข้อมูลกำกับ, การหาปริมาณความสอดคล้องระหว่างผู้กำกับข้อมูล, และการให้คะแนนผลลัพธ์ของระบบด้วยเมตริกที่ช่วยให้การเปรียบเทียบเป็นไปอย่างยุติธรรม

ค้นหาหัวข้อด้วย PaperMindเร็ว ๆ นี้Find papers & topics

Tools & resources

ดาวน์โหลดสไลด์

Learn & explore

วิดีโอเร็ว ๆ นี้

Definition

การประเมินและการกำกับข้อมูลคือชุดของแนวปฏิบัติสำหรับการผลิตข้อมูลที่มีป้ายกำกับที่เชื่อถือได้ และสำหรับการวัดว่าระบบคอมพิวเตอร์สามารถสร้างซ้ำหรือทำนายป้ายกำกับเหล่านั้นได้ดีเพียงใด

Scope

ครอบคลุมโครงสร้างพื้นฐานเชิงประจักษ์ของภาษาศาสตร์เชิงคำนวณ — แผนการกำกับข้อมูลด้วยมือและแนวปฏิบัติ, สถิติความสอดคล้องระหว่างผู้กำกับข้อมูล เช่น ค่าแคปปา, การแบ่งข้อมูลเป็นชุดฝึก/ชุดพัฒนา/ชุดทดสอบ, และเมตริกการประเมินผล รวมถึงความแม่นยำ (precision), การระลึก (recall), ค่า F-measure, ความถูกต้อง (accuracy), และคะแนนเฉพาะงาน เช่น BLEU หัวข้อนี้กล่าวถึงข้อกังวลด้านความถูกต้องและความสามารถในการทำซ้ำ แต่ไม่รวมถึงการออกแบบระบบปลายน้ำแต่ละระบบ

Core questions

เราจะวัดได้อย่างไรว่าผู้กำกับข้อมูลมีความสอดคล้องกัน และเหตุใดความสอดคล้องที่ปรับแก้โอกาสจึงมีความสำคัญ?
เมตริกใดที่เหมาะสมสำหรับงานการจำแนกประเภท, การกำกับลำดับ, และการสร้างข้อความ?
การแบ่งข้อมูลเป็นชุดฝึก/ชุดพัฒนา/ชุดทดสอบช่วยป้องกันการเกิดภาวะโอเวอร์ฟิตติ้งและผลลัพธ์ที่สูงเกินจริงได้อย่างไร?
อะไรที่ทำให้การประเมินสามารถทำซ้ำได้และเปรียบเทียบกันได้ในการศึกษาต่างๆ?

Key concepts

ความสอดคล้องระหว่างผู้กำกับข้อมูล
สถิติแคปปา
ความแม่นยำและการระลึก
ค่า F-measure
การแบ่งข้อมูลเป็นชุดฝึก/ชุดพัฒนา/ชุดทดสอบ
BLEU
แนวทางการกำกับข้อมูล
มาตรฐานทองคำ

Key theories

ความสอดคล้องที่ปรับแก้โอกาส: ความน่าเชื่อถือของการกำกับข้อมูลควรวัดด้วยสัมประสิทธิ์เช่น Cohen's หรือ Fleiss' kappa ซึ่งหักลบความสอดคล้องที่คาดว่าจะเกิดขึ้นโดยบังเอิญ ไม่ใช่เปอร์เซ็นต์ความสอดคล้องดิบ
การประเมินอัตโนมัติโดยการทับซ้อนของ n-gram: คุณภาพของการสร้างข้อความสามารถประมาณได้ง่ายโดยการเปรียบเทียบผลลัพธ์ของระบบกับข้อมูลอ้างอิงผ่านการทับซ้อนของ n-gram เช่นใน BLEU ซึ่งช่วยให้สามารถทำซ้ำได้อย่างรวดเร็วแม้จะมีข้อจำกัดที่เป็นที่ทราบกันดี

History

เมื่อวิธีการที่ใช้คลังข้อมูลแพร่หลายในทศวรรษ 1990 สาขาวิชานี้ต้องการมาตรฐานร่วมกันสำหรับการกำกับข้อมูลและการให้คะแนนระบบ สถิติความสอดคล้องที่ยืมมาจากวิธีการวิเคราะห์เนื้อหาได้ถูกนำมาปรับใช้กับการกำกับข้อมูลทางภาษาศาสตร์ ซึ่งได้รับการสำรวจอย่างละเอียดโดย Artstein และ Poesio ในขณะที่เมตริกเช่น BLEU (2002) ทำให้การประเมินการสร้างข้อความอัตโนมัติสามารถทำได้และเป็นรูปเป็นร่างของวัฒนธรรมงานร่วม

Debates

เมตริกอัตโนมัติวัดคุณภาพได้จริงหรือ?: เมตริกเช่น BLEU มีความสัมพันธ์เพียงหลวมๆ กับการตัดสินของมนุษย์ โดยเฉพาะอย่างยิ่งสำหรับการสร้างข้อความที่คล่องแคล่ว ซึ่งก่อให้เกิดการถกเถียงอย่างต่อเนื่องว่าเมื่อใดที่คะแนนอัตโนมัติเชื่อถือได้ และเมื่อใดที่จำเป็นต้องมีการประเมินโดยมนุษย์

Key figures

Ron Artstein
Massimo Poesio
Kishore Papineni

Seminal works

artstein2008
papineni2002

Frequently asked questions

ทำไมไม่รายงานแค่ความถูกต้อง (accuracy)?: ความถูกต้องอาจทำให้เข้าใจผิดได้เมื่อคลาสไม่สมดุล หรือเมื่อทั้งผลบวกปลอมและผลลบปลอมมีความสำคัญต่างกัน ความแม่นยำ (precision), การระลึก (recall), และ F-measure ให้ภาพข้อมูลที่เป็นประโยชน์มากกว่าสำหรับงานภาษาศาสตร์ส่วนใหญ่