ชุดทดสอบและการตัดสินความเกี่ยวข้อง
ชุดทดสอบจะรวบรวมชุดเอกสาร ชุดคำค้น และการตัดสินความเกี่ยวข้องโดยมนุษย์ เพื่อให้ระบบการค้นคืนสามารถให้คะแนนและเปรียบเทียบได้อย่างสามารถทำซ้ำได้
Definition
ชุดทดสอบคือชุดข้อมูลคงที่ที่ประกอบด้วยคลังเอกสาร, ชุดคำค้นหรือข้อความหัวข้อที่อธิบายความต้องการข้อมูล, และการตัดสินความเกี่ยวข้องที่ระบุว่าเอกสารใดเกี่ยวข้องกับแต่ละหัวข้อ ซึ่งทั้งหมดนี้ช่วยให้สามารถวัดประสิทธิภาพการค้นคืนได้อย่างสามารถทำซ้ำได้
Scope
หัวข้อนี้ครอบคลุมการสร้างและการใช้ชุดทดสอบ IR ที่นำกลับมาใช้ใหม่ได้ตามกระบวนทัศน์ Cranfield: คลังเอกสาร, ข้อความหัวข้อที่กำหนดความต้องการข้อมูล, และการตัดสินความเกี่ยวข้อง (qrels) ที่บันทึกว่าเอกสารใดเกี่ยวข้องกับแต่ละหัวข้อ โดยจะกล่าวถึงความเกี่ยวข้องแบบแบ่งระดับเทียบกับแบบไบนารี, ความสอดคล้องของการตัดสิน, การนำชุดข้อมูลกลับมาใช้ใหม่สำหรับระบบใหม่, และบทบาทของความพยายามขนาดใหญ่ เช่น TREC ซึ่งไม่รวมเมตริกที่คำนวณจากการตัดสินและขั้นตอนการรวมกลุ่มที่ใช้ในการรวบรวม ซึ่งเป็นหัวข้อที่เกี่ยวข้อง
Core questions
- องค์ประกอบสามประการของชุดทดสอบแบบ Cranfield มีอะไรบ้าง?
- ความต้องการข้อมูลที่แสดงออกเป็นหัวข้อแตกต่างจากคำค้นสั้นๆ ที่ให้กับระบบอย่างไร?
- ความเกี่ยวข้องถูกกำหนดและบันทึกอย่างไร และเมื่อใดที่ใช้ความเกี่ยวข้องแบบแบ่งระดับ?
- การตัดสินความเกี่ยวข้องของมนุษย์มีความสอดคล้องกันเพียงใด และความไม่สอดคล้องกันส่งผลต่อการเปรียบเทียบหรือไม่?
- อะไรที่ทำให้ชุดทดสอบสามารถนำกลับมาใช้ใหม่ได้สำหรับระบบที่ไม่ได้มีส่วนร่วมในการสร้างชุดทดสอบนั้น?
Key concepts
- คลังเอกสาร
- ข้อความหัวข้อ / ความต้องการข้อมูล
- การตัดสินความเกี่ยวข้อง (qrels)
- ความเกี่ยวข้องแบบไบนารีเทียบกับแบบแบ่งระดับ
- ความเห็นพ้องของผู้ประเมิน
- การนำชุดข้อมูลกลับมาใช้ใหม่
- ชุดทดสอบ TREC
- ความจริงพื้นฐานสำหรับการประเมิน
Key theories
- กระบวนทัศน์ Cranfield
- การกำหนดเอกสาร, คำค้น, และการตัดสินความเกี่ยวข้องจะสร้างสภาพแวดล้อมการทดลองที่ควบคุมได้ ซึ่งผลลัพธ์ที่จัดอันดับของระบบใดๆ สามารถให้คะแนนเทียบกับการตัดสินได้ ทำให้การทดลองการค้นคืนสามารถทำซ้ำและเปรียบเทียบได้
- ความทนทานของการเปรียบเทียบต่อความไม่เห็นด้วยของผู้ตัดสิน
- แม้ว่าผู้ประเมินที่เป็นมนุษย์จะไม่เห็นด้วยกับการตัดสินความเกี่ยวข้องแต่ละรายการ แต่การศึกษาแสดงให้เห็นว่าการจัดอันดับสัมพัทธ์ของระบบในชุดข้อมูลส่วนใหญ่มีความเสถียรในหมู่ผู้ประเมิน ซึ่งสนับสนุนความถูกต้องของการเปรียบเทียบชุดทดสอบ
Clinical relevance
ชุดทดสอบที่ใช้ร่วมกันเป็นสกุลเงินทั่วไปของการวิจัย IR ซึ่งช่วยให้นักวิจัยทั่วโลกสามารถเปรียบเทียบระบบในงานเดียวกันและทำซ้ำผลลัพธ์ได้ ชุดข้อมูลจากการรณรงค์ประเมินผล เช่น TREC, CLEF และ NTCIR ได้กำหนดทิศทางการพัฒนามานานหลายทศวรรษและยังคงเป็นเกณฑ์มาตรฐานสำหรับวิธีการค้นคืนใหม่ๆ
History
ระเบียบวิธีชุดทดสอบมีต้นกำเนิดมาจากการทดลอง Cranfield ของ Cleverdon ในทศวรรษ 1960 ซึ่งเปรียบเทียบวิธีการทำดัชนีโดยใช้คำค้นและการตัดสินที่กำหนดไว้ การเปิดตัว TREC ในปี 1992 ได้ขยายกระบวนทัศน์ไปสู่ชุดข้อมูลขนาดใหญ่และสมจริง และงานจำนวนมาก ซึ่งผลิตชุดข้อมูลที่เป็นมาตรฐานและนำกลับมาใช้ใหม่ได้ ซึ่งเป็นรากฐานของการประเมิน IR สมัยใหม่
Key figures
- Cyril Cleverdon
- Ellen M. Voorhees
- Donna Harman
Related topics
Seminal works
- cleverdon1967
- voorhees2005
Frequently asked questions
- 'qrels' คืออะไร?
- Qrels (การตัดสินความเกี่ยวข้องของคำค้น) คือบันทึกที่ระบุว่า สำหรับแต่ละหัวข้อในชุดทดสอบ เอกสารใดบ้างที่ได้รับการตัดสินว่าเกี่ยวข้องและในระดับใด เครื่องมือประเมินจะเปรียบเทียบผลลัพธ์ที่จัดอันดับของระบบกับ qrels เพื่อคำนวณเมตริกประสิทธิภาพ
- ความไม่เห็นด้วยระหว่างผู้ตัดสินที่เป็นมนุษย์ทำให้ชุดทดสอบไม่ถูกต้องหรือไม่?
- ผู้ประเมินไม่เห็นด้วยกับเอกสารแต่ละรายการ แต่การวิจัยได้แสดงให้เห็นซ้ำๆ ว่าลำดับสัมพัทธ์ของระบบยังคงมีเสถียรภาพในหมู่ผู้ประเมินที่แตกต่างกัน ดังนั้น แม้ว่าคะแนนสัมบูรณ์จะเปลี่ยนแปลงไป แต่ข้อสรุปเกี่ยวกับระบบใดดีกว่าโดยทั่วไปแล้วมีความทนทาน