การรวมกลุ่มและการประเมินความเกี่ยวข้อง
การรวมกลุ่มเป็นวิธีการที่ทำให้การประเมิน IR ขนาดใหญ่เป็นไปได้ โดยการตัดสินเฉพาะเอกสารที่ระบบที่เข้าร่วมจัดอันดับไว้สูงเท่านั้น แทนที่จะเป็นเอกสารทุกฉบับในชุดข้อมูล
Definition
การรวมกลุ่มเป็นกลยุทธ์การสุ่มตัวอย่างสำหรับการประเมินความเกี่ยวข้อง ซึ่งเอกสารที่จัดอันดับสูงสุดจากชุดของการเรียกค้นข้อมูลที่นำมาใช้จะถูกรวมเข้าด้วยกัน โดยมีการลบรายการที่ซ้ำกันออก เพื่อสร้างกลุ่มที่ผู้ประเมินที่เป็นมนุษย์จะตัดสิน โดยเอกสารที่อยู่นอกกลุ่มจะถือว่าไม่เกี่ยวข้องตามธรรมเนียม
Scope
หัวข้อนี้ครอบคลุมวิธีการรวบรวมการตัดสินความเกี่ยวข้องสำหรับชุดข้อมูลขนาดใหญ่อย่างมีประสิทธิภาพ โดยหลักคือวิธีการรวมกลุ่มที่ใช้ใน TREC และแคมเปญที่คล้ายกัน ซึ่งเอกสารที่จัดอันดับสูงสุดจากหลายระบบจะถูกรวมเข้าเป็นกลุ่มที่ผู้ประเมินตัดสิน หัวข้อนี้กล่าวถึงความลึกของกลุ่ม การปฏิบัติต่อเอกสารที่ยังไม่ได้รับการตัดสินว่าไม่เกี่ยวข้อง การนำกลับมาใช้ใหม่ได้และความลำเอียงที่อาจเกิดขึ้นของชุดข้อมูลที่รวมกลุ่ม และความพยายามและความเห็นพ้องของผู้ประเมิน หัวข้อนี้ไม่รวมเมตริกที่คำนวณในภายหลังและคำจำกัดความของชุดข้อมูลนั้นเอง
Core questions
- การรวมกลุ่มช่วยลดจำนวนเอกสารที่ต้องตัดสินได้อย่างไร
- เลือกความลึกของกลุ่มอย่างไร และส่งผลต่อการครอบคลุมเอกสารที่เกี่ยวข้องอย่างไร
- เหตุใดเอกสารที่ยังไม่ได้รับการตัดสินจึงมักถูกถือว่าไม่เกี่ยวข้อง และอาจก่อให้เกิดความลำเอียงอะไรได้บ้าง
- ชุดข้อมูลที่รวมกลุ่มสามารถนำกลับมาใช้ใหม่ได้มากน้อยเพียงใดสำหรับระบบที่ไม่ได้มีส่วนร่วมในการสร้างกลุ่ม
- จัดการความพยายาม ความเห็นพ้อง และคุณภาพของผู้ประเมินอย่างไร
Key concepts
- วิธีการรวมกลุ่ม
- ความลึกของกลุ่ม
- การเรียกค้นข้อมูลที่นำมาใช้
- ข้อสมมติฐานว่าไม่ได้รับการตัดสินถือว่าไม่เกี่ยวข้อง
- ความลำเอียงของกลุ่มและการนำกลับมาใช้ใหม่ได้
- ความเห็นพ้องของผู้ประเมิน
- ข้อมูลความเกี่ยวข้องที่ไม่สมบูรณ์
- การประเมินความเกี่ยวข้องแบบคราวด์ซอร์ส
Key theories
- การรวมกลุ่มสำหรับการประเมินที่ปรับขนาดได้
- ด้วยการตัดสินเฉพาะการรวมกันของเอกสารที่จัดอันดับสูงสุดจากระบบที่หลากหลายจำนวนมาก การรวมกลุ่มทำให้สามารถประเมินชุดข้อมูลขนาดใหญ่ได้อย่างเป็นรูปธรรม ในขณะที่ยังคงค้นหาเอกสารที่เกี่ยวข้องส่วนใหญ่ที่ระบบที่สมเหตุสมผลใดๆ จะแสดงออกมา
- ข้อกังวลด้านความน่าเชื่อถือและการนำกลับมาใช้ใหม่ได้
- การรวมกลุ่มอาจแสดงเอกสารที่เกี่ยวข้องที่พบโดยระบบในอนาคตเท่านั้นน้อยเกินไป ทำให้เกิดคำถามเกี่ยวกับความลำเอียงและการนำกลับมาใช้ใหม่ได้ ซึ่งเป็นแรงจูงใจให้มีการสร้างกลุ่มที่ลึกขึ้น ผู้มีส่วนร่วมที่หลากหลาย และเมตริกที่แข็งแกร่งสำหรับการตัดสินที่ไม่สมบูรณ์
Clinical relevance
การรวมกลุ่มทำให้ชุดข้อมูลทดสอบที่ใช้ร่วมกันและนำกลับมาใช้ใหม่ได้มีราคาไม่แพง และเป็นพื้นฐานของการตัดสินที่อยู่เบื้องหลังผลลัพธ์มาตรฐานมานานหลายทศวรรษ การทำความเข้าใจข้อสมมติฐานมีความสำคัญเมื่อนำชุดข้อมูลเก่ามาใช้ซ้ำเพื่อประเมินวิธีการใหม่ๆ โดยเฉพาะอย่างยิ่งระบบประสาทเทียมที่อาจแสดงเอกสารที่เกี่ยวข้องซึ่งกลุ่มข้อมูลเดิมไม่เคยตัดสิน
History
TREC ได้นำการรวมกลุ่มมาใช้ตั้งแต่เริ่มต้นในปี 1992 เพื่อให้การตัดสินชุดข้อมูลขนาดใหญ่สามารถทำได้ การวิเคราะห์ของ Zobel ในปี 1998 ได้ตรวจสอบความน่าเชื่อถือและการนำกลับมาใช้ใหม่ได้ของชุดข้อมูลที่รวมกลุ่ม และงานที่ตามมาเกี่ยวกับการตัดสินที่ไม่สมบูรณ์ได้สร้างเมตริกและกลยุทธ์การรวมกลุ่มที่ลึกขึ้นหรือฉลาดขึ้นเพื่อลดความลำเอียงเมื่อชุดข้อมูลและประชากรของระบบมีการพัฒนา
Key figures
- Ellen M. Voorhees
- Justin Zobel
- Chris Buckley
Related topics
Seminal works
- voorhees2005
- zobel1998
- buckley2004
Frequently asked questions
- เหตุใดจึงไม่ตัดสินเอกสารทุกฉบับในชุดข้อมูล
- ชุดข้อมูลขนาดใหญ่มีเอกสารหลายล้านฉบับ ดังนั้นการตัดสินทั้งหมดสำหรับทุกหัวข้อจึงเป็นไปไม่ได้ การรวมกลุ่มจะตัดสินเฉพาะเอกสารที่ระบบที่เข้าร่วมจัดอันดับไว้สูง ซึ่งครอบคลุมเอกสารที่เกี่ยวข้องส่วนใหญ่ในขณะที่ยังคงรักษาความพยายามในการประเมินให้อยู่ในระดับที่จัดการได้
- ความเสี่ยงของการปฏิบัติต่อเอกสารที่ยังไม่ได้รับการตัดสินว่าไม่เกี่ยวข้องคืออะไร
- ระบบในภายหลังอาจเรียกค้นเอกสารที่เกี่ยวข้องซึ่งไม่เคยอยู่ในกลุ่มและถูกนับว่าไม่เกี่ยวข้อง ทำให้คะแนนที่วัดได้ลดลงอย่างไม่เป็นธรรม ความลำเอียงของกลุ่มนี้เป็นเหตุผลที่ใช้กลุ่มที่ลึกขึ้น หลากหลายขึ้น และเมตริกที่ทนทานต่อการตัดสินเมื่อนำชุดข้อมูลกลับมาใช้ใหม่