'qrels' คืออะไร?

Qrels (การตัดสินความเกี่ยวข้องของคำค้น) คือบันทึกที่ระบุว่า สำหรับแต่ละหัวข้อในชุดทดสอบ เอกสารใดบ้างที่ได้รับการตัดสินว่าเกี่ยวข้องและในระดับใด เครื่องมือประเมินจะเปรียบเทียบผลลัพธ์ที่จัดอันดับของระบบกับ qrels เพื่อคำนวณเมตริกประสิทธิภาพ

ความไม่เห็นด้วยระหว่างผู้ตัดสินที่เป็นมนุษย์ทำให้ชุดทดสอบไม่ถูกต้องหรือไม่?

ผู้ประเมินไม่เห็นด้วยกับเอกสารแต่ละรายการ แต่การวิจัยได้แสดงให้เห็นซ้ำๆ ว่าลำดับสัมพัทธ์ของระบบยังคงมีเสถียรภาพในหมู่ผู้ประเมินที่แตกต่างกัน ดังนั้น แม้ว่าคะแนนสัมบูรณ์จะเปลี่ยนแปลงไป แต่ข้อสรุปเกี่ยวกับระบบใดดีกว่าโดยทั่วไปแล้วมีความทนทาน

ชุดทดสอบและการตัดสินความเกี่ยวข้อง

ชุดทดสอบจะรวบรวมชุดเอกสาร ชุดคำค้น และการตัดสินความเกี่ยวข้องโดยมนุษย์ เพื่อให้ระบบการค้นคืนสามารถให้คะแนนและเปรียบเทียบได้อย่างสามารถทำซ้ำได้

ค้นหาหัวข้อด้วย PaperMindเร็ว ๆ นี้Find papers & topics

Tools & resources

ดาวน์โหลดสไลด์

Learn & explore

วิดีโอเร็ว ๆ นี้

Definition

ชุดทดสอบคือชุดข้อมูลคงที่ที่ประกอบด้วยคลังเอกสาร, ชุดคำค้นหรือข้อความหัวข้อที่อธิบายความต้องการข้อมูล, และการตัดสินความเกี่ยวข้องที่ระบุว่าเอกสารใดเกี่ยวข้องกับแต่ละหัวข้อ ซึ่งทั้งหมดนี้ช่วยให้สามารถวัดประสิทธิภาพการค้นคืนได้อย่างสามารถทำซ้ำได้

Scope

หัวข้อนี้ครอบคลุมการสร้างและการใช้ชุดทดสอบ IR ที่นำกลับมาใช้ใหม่ได้ตามกระบวนทัศน์ Cranfield: คลังเอกสาร, ข้อความหัวข้อที่กำหนดความต้องการข้อมูล, และการตัดสินความเกี่ยวข้อง (qrels) ที่บันทึกว่าเอกสารใดเกี่ยวข้องกับแต่ละหัวข้อ โดยจะกล่าวถึงความเกี่ยวข้องแบบแบ่งระดับเทียบกับแบบไบนารี, ความสอดคล้องของการตัดสิน, การนำชุดข้อมูลกลับมาใช้ใหม่สำหรับระบบใหม่, และบทบาทของความพยายามขนาดใหญ่ เช่น TREC ซึ่งไม่รวมเมตริกที่คำนวณจากการตัดสินและขั้นตอนการรวมกลุ่มที่ใช้ในการรวบรวม ซึ่งเป็นหัวข้อที่เกี่ยวข้อง

Core questions

องค์ประกอบสามประการของชุดทดสอบแบบ Cranfield มีอะไรบ้าง?
ความต้องการข้อมูลที่แสดงออกเป็นหัวข้อแตกต่างจากคำค้นสั้นๆ ที่ให้กับระบบอย่างไร?
ความเกี่ยวข้องถูกกำหนดและบันทึกอย่างไร และเมื่อใดที่ใช้ความเกี่ยวข้องแบบแบ่งระดับ?
การตัดสินความเกี่ยวข้องของมนุษย์มีความสอดคล้องกันเพียงใด และความไม่สอดคล้องกันส่งผลต่อการเปรียบเทียบหรือไม่?
อะไรที่ทำให้ชุดทดสอบสามารถนำกลับมาใช้ใหม่ได้สำหรับระบบที่ไม่ได้มีส่วนร่วมในการสร้างชุดทดสอบนั้น?

Key concepts

คลังเอกสาร
ข้อความหัวข้อ / ความต้องการข้อมูล
การตัดสินความเกี่ยวข้อง (qrels)
ความเกี่ยวข้องแบบไบนารีเทียบกับแบบแบ่งระดับ
ความเห็นพ้องของผู้ประเมิน
การนำชุดข้อมูลกลับมาใช้ใหม่
ชุดทดสอบ TREC
ความจริงพื้นฐานสำหรับการประเมิน

Key theories

กระบวนทัศน์ Cranfield: การกำหนดเอกสาร, คำค้น, และการตัดสินความเกี่ยวข้องจะสร้างสภาพแวดล้อมการทดลองที่ควบคุมได้ ซึ่งผลลัพธ์ที่จัดอันดับของระบบใดๆ สามารถให้คะแนนเทียบกับการตัดสินได้ ทำให้การทดลองการค้นคืนสามารถทำซ้ำและเปรียบเทียบได้
ความทนทานของการเปรียบเทียบต่อความไม่เห็นด้วยของผู้ตัดสิน: แม้ว่าผู้ประเมินที่เป็นมนุษย์จะไม่เห็นด้วยกับการตัดสินความเกี่ยวข้องแต่ละรายการ แต่การศึกษาแสดงให้เห็นว่าการจัดอันดับสัมพัทธ์ของระบบในชุดข้อมูลส่วนใหญ่มีความเสถียรในหมู่ผู้ประเมิน ซึ่งสนับสนุนความถูกต้องของการเปรียบเทียบชุดทดสอบ

Clinical relevance

ชุดทดสอบที่ใช้ร่วมกันเป็นสกุลเงินทั่วไปของการวิจัย IR ซึ่งช่วยให้นักวิจัยทั่วโลกสามารถเปรียบเทียบระบบในงานเดียวกันและทำซ้ำผลลัพธ์ได้ ชุดข้อมูลจากการรณรงค์ประเมินผล เช่น TREC, CLEF และ NTCIR ได้กำหนดทิศทางการพัฒนามานานหลายทศวรรษและยังคงเป็นเกณฑ์มาตรฐานสำหรับวิธีการค้นคืนใหม่ๆ

History

ระเบียบวิธีชุดทดสอบมีต้นกำเนิดมาจากการทดลอง Cranfield ของ Cleverdon ในทศวรรษ 1960 ซึ่งเปรียบเทียบวิธีการทำดัชนีโดยใช้คำค้นและการตัดสินที่กำหนดไว้ การเปิดตัว TREC ในปี 1992 ได้ขยายกระบวนทัศน์ไปสู่ชุดข้อมูลขนาดใหญ่และสมจริง และงานจำนวนมาก ซึ่งผลิตชุดข้อมูลที่เป็นมาตรฐานและนำกลับมาใช้ใหม่ได้ ซึ่งเป็นรากฐานของการประเมิน IR สมัยใหม่

Key figures

Cyril Cleverdon
Ellen M. Voorhees
Donna Harman

Seminal works

cleverdon1967
voorhees2005

Frequently asked questions

'qrels' คืออะไร?: Qrels (การตัดสินความเกี่ยวข้องของคำค้น) คือบันทึกที่ระบุว่า สำหรับแต่ละหัวข้อในชุดทดสอบ เอกสารใดบ้างที่ได้รับการตัดสินว่าเกี่ยวข้องและในระดับใด เครื่องมือประเมินจะเปรียบเทียบผลลัพธ์ที่จัดอันดับของระบบกับ qrels เพื่อคำนวณเมตริกประสิทธิภาพ
ความไม่เห็นด้วยระหว่างผู้ตัดสินที่เป็นมนุษย์ทำให้ชุดทดสอบไม่ถูกต้องหรือไม่?: ผู้ประเมินไม่เห็นด้วยกับเอกสารแต่ละรายการ แต่การวิจัยได้แสดงให้เห็นซ้ำๆ ว่าลำดับสัมพัทธ์ของระบบยังคงมีเสถียรภาพในหมู่ผู้ประเมินที่แตกต่างกัน ดังนั้น แม้ว่าคะแนนสัมบูรณ์จะเปลี่ยนแปลงไป แต่ข้อสรุปเกี่ยวกับระบบใดดีกว่าโดยทั่วไปแล้วมีความทนทาน