ScholarGate
ผู้ช่วย

การประเมินและการกำกับข้อมูล

ระเบียบวิธีในการวัดระบบประมวลผลภาษา: การสร้างคลังข้อมูลกำกับ, การหาปริมาณความสอดคล้องระหว่างผู้กำกับข้อมูล, และการให้คะแนนผลลัพธ์ของระบบด้วยเมตริกที่ช่วยให้การเปรียบเทียบเป็นไปอย่างยุติธรรม

ค้นหาหัวข้อด้วย PaperMindเร็ว ๆ นี้Find papers & topics
Tools & resources
ดาวน์โหลดสไลด์
Learn & explore
วิดีโอเร็ว ๆ นี้

Definition

การประเมินและการกำกับข้อมูลคือชุดของแนวปฏิบัติสำหรับการผลิตข้อมูลที่มีป้ายกำกับที่เชื่อถือได้ และสำหรับการวัดว่าระบบคอมพิวเตอร์สามารถสร้างซ้ำหรือทำนายป้ายกำกับเหล่านั้นได้ดีเพียงใด

Scope

ครอบคลุมโครงสร้างพื้นฐานเชิงประจักษ์ของภาษาศาสตร์เชิงคำนวณ — แผนการกำกับข้อมูลด้วยมือและแนวปฏิบัติ, สถิติความสอดคล้องระหว่างผู้กำกับข้อมูล เช่น ค่าแคปปา, การแบ่งข้อมูลเป็นชุดฝึก/ชุดพัฒนา/ชุดทดสอบ, และเมตริกการประเมินผล รวมถึงความแม่นยำ (precision), การระลึก (recall), ค่า F-measure, ความถูกต้อง (accuracy), และคะแนนเฉพาะงาน เช่น BLEU หัวข้อนี้กล่าวถึงข้อกังวลด้านความถูกต้องและความสามารถในการทำซ้ำ แต่ไม่รวมถึงการออกแบบระบบปลายน้ำแต่ละระบบ

Core questions

  • เราจะวัดได้อย่างไรว่าผู้กำกับข้อมูลมีความสอดคล้องกัน และเหตุใดความสอดคล้องที่ปรับแก้โอกาสจึงมีความสำคัญ?
  • เมตริกใดที่เหมาะสมสำหรับงานการจำแนกประเภท, การกำกับลำดับ, และการสร้างข้อความ?
  • การแบ่งข้อมูลเป็นชุดฝึก/ชุดพัฒนา/ชุดทดสอบช่วยป้องกันการเกิดภาวะโอเวอร์ฟิตติ้งและผลลัพธ์ที่สูงเกินจริงได้อย่างไร?
  • อะไรที่ทำให้การประเมินสามารถทำซ้ำได้และเปรียบเทียบกันได้ในการศึกษาต่างๆ?

Key concepts

  • ความสอดคล้องระหว่างผู้กำกับข้อมูล
  • สถิติแคปปา
  • ความแม่นยำและการระลึก
  • ค่า F-measure
  • การแบ่งข้อมูลเป็นชุดฝึก/ชุดพัฒนา/ชุดทดสอบ
  • BLEU
  • แนวทางการกำกับข้อมูล
  • มาตรฐานทองคำ

Key theories

ความสอดคล้องที่ปรับแก้โอกาส
ความน่าเชื่อถือของการกำกับข้อมูลควรวัดด้วยสัมประสิทธิ์เช่น Cohen's หรือ Fleiss' kappa ซึ่งหักลบความสอดคล้องที่คาดว่าจะเกิดขึ้นโดยบังเอิญ ไม่ใช่เปอร์เซ็นต์ความสอดคล้องดิบ
การประเมินอัตโนมัติโดยการทับซ้อนของ n-gram
คุณภาพของการสร้างข้อความสามารถประมาณได้ง่ายโดยการเปรียบเทียบผลลัพธ์ของระบบกับข้อมูลอ้างอิงผ่านการทับซ้อนของ n-gram เช่นใน BLEU ซึ่งช่วยให้สามารถทำซ้ำได้อย่างรวดเร็วแม้จะมีข้อจำกัดที่เป็นที่ทราบกันดี

History

เมื่อวิธีการที่ใช้คลังข้อมูลแพร่หลายในทศวรรษ 1990 สาขาวิชานี้ต้องการมาตรฐานร่วมกันสำหรับการกำกับข้อมูลและการให้คะแนนระบบ สถิติความสอดคล้องที่ยืมมาจากวิธีการวิเคราะห์เนื้อหาได้ถูกนำมาปรับใช้กับการกำกับข้อมูลทางภาษาศาสตร์ ซึ่งได้รับการสำรวจอย่างละเอียดโดย Artstein และ Poesio ในขณะที่เมตริกเช่น BLEU (2002) ทำให้การประเมินการสร้างข้อความอัตโนมัติสามารถทำได้และเป็นรูปเป็นร่างของวัฒนธรรมงานร่วม

Debates

เมตริกอัตโนมัติวัดคุณภาพได้จริงหรือ?
เมตริกเช่น BLEU มีความสัมพันธ์เพียงหลวมๆ กับการตัดสินของมนุษย์ โดยเฉพาะอย่างยิ่งสำหรับการสร้างข้อความที่คล่องแคล่ว ซึ่งก่อให้เกิดการถกเถียงอย่างต่อเนื่องว่าเมื่อใดที่คะแนนอัตโนมัติเชื่อถือได้ และเมื่อใดที่จำเป็นต้องมีการประเมินโดยมนุษย์

Key figures

  • Ron Artstein
  • Massimo Poesio
  • Kishore Papineni

Related topics

Seminal works

  • artstein2008
  • papineni2002

Frequently asked questions

ทำไมไม่รายงานแค่ความถูกต้อง (accuracy)?
ความถูกต้องอาจทำให้เข้าใจผิดได้เมื่อคลาสไม่สมดุล หรือเมื่อทั้งผลบวกปลอมและผลลบปลอมมีความสำคัญต่างกัน ความแม่นยำ (precision), การระลึก (recall), และ F-measure ให้ภาพข้อมูลที่เป็นประโยชน์มากกว่าสำหรับงานภาษาศาสตร์ส่วนใหญ่

Methods for this concept

Related concepts