การรวมกลุ่มและการประเมินความเกี่ยวข้อง

การรวมกลุ่มเป็นวิธีการที่ทำให้การประเมิน IR ขนาดใหญ่เป็นไปได้ โดยการตัดสินเฉพาะเอกสารที่ระบบที่เข้าร่วมจัดอันดับไว้สูงเท่านั้น แทนที่จะเป็นเอกสารทุกฉบับในชุดข้อมูล

ค้นหาหัวข้อด้วย PaperMindเร็ว ๆ นี้Find papers & topics

Tools & resources

ดาวน์โหลดสไลด์

Learn & explore

วิดีโอเร็ว ๆ นี้

Definition

การรวมกลุ่มเป็นกลยุทธ์การสุ่มตัวอย่างสำหรับการประเมินความเกี่ยวข้อง ซึ่งเอกสารที่จัดอันดับสูงสุดจากชุดของการเรียกค้นข้อมูลที่นำมาใช้จะถูกรวมเข้าด้วยกัน โดยมีการลบรายการที่ซ้ำกันออก เพื่อสร้างกลุ่มที่ผู้ประเมินที่เป็นมนุษย์จะตัดสิน โดยเอกสารที่อยู่นอกกลุ่มจะถือว่าไม่เกี่ยวข้องตามธรรมเนียม

Scope

หัวข้อนี้ครอบคลุมวิธีการรวบรวมการตัดสินความเกี่ยวข้องสำหรับชุดข้อมูลขนาดใหญ่อย่างมีประสิทธิภาพ โดยหลักคือวิธีการรวมกลุ่มที่ใช้ใน TREC และแคมเปญที่คล้ายกัน ซึ่งเอกสารที่จัดอันดับสูงสุดจากหลายระบบจะถูกรวมเข้าเป็นกลุ่มที่ผู้ประเมินตัดสิน หัวข้อนี้กล่าวถึงความลึกของกลุ่ม การปฏิบัติต่อเอกสารที่ยังไม่ได้รับการตัดสินว่าไม่เกี่ยวข้อง การนำกลับมาใช้ใหม่ได้และความลำเอียงที่อาจเกิดขึ้นของชุดข้อมูลที่รวมกลุ่ม และความพยายามและความเห็นพ้องของผู้ประเมิน หัวข้อนี้ไม่รวมเมตริกที่คำนวณในภายหลังและคำจำกัดความของชุดข้อมูลนั้นเอง

Core questions

การรวมกลุ่มช่วยลดจำนวนเอกสารที่ต้องตัดสินได้อย่างไร
เลือกความลึกของกลุ่มอย่างไร และส่งผลต่อการครอบคลุมเอกสารที่เกี่ยวข้องอย่างไร
เหตุใดเอกสารที่ยังไม่ได้รับการตัดสินจึงมักถูกถือว่าไม่เกี่ยวข้อง และอาจก่อให้เกิดความลำเอียงอะไรได้บ้าง
ชุดข้อมูลที่รวมกลุ่มสามารถนำกลับมาใช้ใหม่ได้มากน้อยเพียงใดสำหรับระบบที่ไม่ได้มีส่วนร่วมในการสร้างกลุ่ม
จัดการความพยายาม ความเห็นพ้อง และคุณภาพของผู้ประเมินอย่างไร

Key concepts

วิธีการรวมกลุ่ม
ความลึกของกลุ่ม
การเรียกค้นข้อมูลที่นำมาใช้
ข้อสมมติฐานว่าไม่ได้รับการตัดสินถือว่าไม่เกี่ยวข้อง
ความลำเอียงของกลุ่มและการนำกลับมาใช้ใหม่ได้
ความเห็นพ้องของผู้ประเมิน
ข้อมูลความเกี่ยวข้องที่ไม่สมบูรณ์
การประเมินความเกี่ยวข้องแบบคราวด์ซอร์ส

Key theories

การรวมกลุ่มสำหรับการประเมินที่ปรับขนาดได้: ด้วยการตัดสินเฉพาะการรวมกันของเอกสารที่จัดอันดับสูงสุดจากระบบที่หลากหลายจำนวนมาก การรวมกลุ่มทำให้สามารถประเมินชุดข้อมูลขนาดใหญ่ได้อย่างเป็นรูปธรรม ในขณะที่ยังคงค้นหาเอกสารที่เกี่ยวข้องส่วนใหญ่ที่ระบบที่สมเหตุสมผลใดๆ จะแสดงออกมา
ข้อกังวลด้านความน่าเชื่อถือและการนำกลับมาใช้ใหม่ได้: การรวมกลุ่มอาจแสดงเอกสารที่เกี่ยวข้องที่พบโดยระบบในอนาคตเท่านั้นน้อยเกินไป ทำให้เกิดคำถามเกี่ยวกับความลำเอียงและการนำกลับมาใช้ใหม่ได้ ซึ่งเป็นแรงจูงใจให้มีการสร้างกลุ่มที่ลึกขึ้น ผู้มีส่วนร่วมที่หลากหลาย และเมตริกที่แข็งแกร่งสำหรับการตัดสินที่ไม่สมบูรณ์

Clinical relevance

การรวมกลุ่มทำให้ชุดข้อมูลทดสอบที่ใช้ร่วมกันและนำกลับมาใช้ใหม่ได้มีราคาไม่แพง และเป็นพื้นฐานของการตัดสินที่อยู่เบื้องหลังผลลัพธ์มาตรฐานมานานหลายทศวรรษ การทำความเข้าใจข้อสมมติฐานมีความสำคัญเมื่อนำชุดข้อมูลเก่ามาใช้ซ้ำเพื่อประเมินวิธีการใหม่ๆ โดยเฉพาะอย่างยิ่งระบบประสาทเทียมที่อาจแสดงเอกสารที่เกี่ยวข้องซึ่งกลุ่มข้อมูลเดิมไม่เคยตัดสิน

History

TREC ได้นำการรวมกลุ่มมาใช้ตั้งแต่เริ่มต้นในปี 1992 เพื่อให้การตัดสินชุดข้อมูลขนาดใหญ่สามารถทำได้ การวิเคราะห์ของ Zobel ในปี 1998 ได้ตรวจสอบความน่าเชื่อถือและการนำกลับมาใช้ใหม่ได้ของชุดข้อมูลที่รวมกลุ่ม และงานที่ตามมาเกี่ยวกับการตัดสินที่ไม่สมบูรณ์ได้สร้างเมตริกและกลยุทธ์การรวมกลุ่มที่ลึกขึ้นหรือฉลาดขึ้นเพื่อลดความลำเอียงเมื่อชุดข้อมูลและประชากรของระบบมีการพัฒนา

Key figures

Ellen M. Voorhees
Justin Zobel
Chris Buckley

Seminal works

voorhees2005
zobel1998
buckley2004

Frequently asked questions

เหตุใดจึงไม่ตัดสินเอกสารทุกฉบับในชุดข้อมูล: ชุดข้อมูลขนาดใหญ่มีเอกสารหลายล้านฉบับ ดังนั้นการตัดสินทั้งหมดสำหรับทุกหัวข้อจึงเป็นไปไม่ได้ การรวมกลุ่มจะตัดสินเฉพาะเอกสารที่ระบบที่เข้าร่วมจัดอันดับไว้สูง ซึ่งครอบคลุมเอกสารที่เกี่ยวข้องส่วนใหญ่ในขณะที่ยังคงรักษาความพยายามในการประเมินให้อยู่ในระดับที่จัดการได้
ความเสี่ยงของการปฏิบัติต่อเอกสารที่ยังไม่ได้รับการตัดสินว่าไม่เกี่ยวข้องคืออะไร: ระบบในภายหลังอาจเรียกค้นเอกสารที่เกี่ยวข้องซึ่งไม่เคยอยู่ในกลุ่มและถูกนับว่าไม่เกี่ยวข้อง ทำให้คะแนนที่วัดได้ลดลงอย่างไม่เป็นธรรม ความลำเอียงของกลุ่มนี้เป็นเหตุผลที่ใช้กลุ่มที่ลึกขึ้น หลากหลายขึ้น และเมตริกที่ทนทานต่อการตัดสินเมื่อนำชุดข้อมูลกลับมาใช้ใหม่