ScholarGate
المساعد

التجميع وتقييم الصلة

التجميع هو الطريقة التي تجعل تقييم استرجاع المعلومات (IR) على نطاق واسع ممكنًا من خلال الحكم على المستندات التي تصنفها الأنظمة المشاركة في المراتب العليا فقط، بدلاً من كل مستند في المجموعة.

اعثر على موضوع باستخدام PaperMindقريبًاFind papers & topics
Tools & resources
تنزيل الشرائح
Learn & explore
فيديوقريبًا

Definition

التجميع هو استراتيجية أخذ عينات لتقييم الصلة يتم فيها دمج المستندات ذات التصنيف الأعلى من مجموعة من عمليات الاسترجاع المساهمة، مع إزالة التكرارات، في مجمع يحكم عليه المقيمون البشريون، مع اعتبار المستندات خارج المجمع تقليديًا غير ذات صلة.

Scope

يغطي هذا الموضوع كيفية جمع أحكام الصلة بكفاءة للمجموعات الكبيرة، وبشكل أساسي طريقة التجميع المستخدمة في حملات TREC والحملات المماثلة، حيث يتم دمج المستندات ذات التصنيف الأعلى من العديد من الأنظمة في مجمع يحكم عليه المقيمون. ويتناول عمق المجمع، ومعاملة المستندات غير المحكوم عليها على أنها غير ذات صلة، وقابلية إعادة الاستخدام والتحيز المحتمل للمجموعات المجمعة، وجهد المقيمين واتفاقهم. ويستثني المقاييس المحسوبة بعد ذلك وتعريف المجموعة نفسها.

Core questions

  • كيف يقلل التجميع من عدد المستندات التي يجب الحكم عليها؟
  • كيف يتم اختيار عمق المجمع، وكيف يؤثر على تغطية المستندات ذات الصلة؟
  • لماذا تُعامل المستندات غير المحكوم عليها عادةً على أنها غير ذات صلة، وما هو التحيز الذي يمكن أن يحدثه ذلك؟
  • ما مدى قابلية إعادة استخدام المجموعات المجمعة للأنظمة التي لم تساهم في المجمع؟
  • كيف يتم إدارة جهد المقيمين، واتفاقهم، وجودتهم؟

Key concepts

  • طريقة التجميع
  • عمق المجمع
  • العمليات المساهمة
  • افتراض غير المحكوم عليه كغير ذي صلة
  • تحيز المجمع وقابلية إعادة الاستخدام
  • اتفاق المقيمين
  • معلومات الصلة غير المكتملة
  • تقييم الصلة بالاستعانة بالمصادر الجماعية

Key theories

التجميع للتقييم القابل للتطوير
من خلال الحكم على اتحاد المستندات ذات التصنيف الأعلى فقط من العديد من الأنظمة المتنوعة، يجعل التجميع من العملي تقييم المجموعات الكبيرة مع الاستمرار في العثور على معظم المستندات ذات الصلة التي قد تظهرها أي نظام معقول.
مخاوف الموثوقية وقابلية إعادة الاستخدام
يمكن أن يقلل التجميع من تمثيل المستندات ذات الصلة التي لا توجد إلا بواسطة الأنظمة المستقبلية، مما يثير تساؤلات حول التحيز وقابلية إعادة الاستخدام التي تحفز المجمعات الأعمق، والمساهمين المتنوعين، والمقاييس القوية للأحكام غير المكتملة.

Clinical relevance

التجميع هو ما يجعل مجموعات الاختبار المشتركة والقابلة لإعادة الاستخدام ميسورة التكلفة، وهو أساس الأحكام وراء عقود من نتائج المعايير. إن فهم افتراضاته مهم عند إعادة استخدام المجموعات القديمة لتقييم الأساليب الجديدة، خاصة الأنظمة العصبية التي قد تظهر مستندات ذات صلة لم يتم الحكم عليها مطلقًا في المجمعات الأصلية.

History

اعتمدت TREC التجميع منذ بدايتها في عام 1992 لجعل الحكم على المجموعات الكبيرة ممكنًا. فحص تحليل زوبل عام 1998 موثوقية وقابلية إعادة استخدام المجموعات المجمعة، وأنتج العمل اللاحق على الأحكام غير المكتملة مقاييس واستراتيجيات تجميع أعمق أو أذكى للتخفيف من التحيز مع تطور المجموعات ومجموعات الأنظمة.

Key figures

  • Ellen M. Voorhees
  • Justin Zobel
  • Chris Buckley

Related topics

Seminal works

  • voorhees2005
  • zobel1998
  • buckley2004

Frequently asked questions

لماذا لا يتم الحكم على كل مستند في المجموعة؟
تحتوي المجموعات الكبيرة على ملايين المستندات، لذا فإن الحكم عليها جميعًا لكل موضوع أمر غير ممكن. يحكم التجميع فقط على المستندات التي تصنفها الأنظمة المساهمة في المراتب العليا، مما يلتقط معظم المستندات ذات الصلة مع الحفاظ على جهد التقييم قابلاً للإدارة.
ما هو خطر معاملة المستندات غير المحكوم عليها على أنها غير ذات صلة؟
قد يسترجع نظام لاحق مستندات ذات صلة لم تكن أبدًا في المجمع وبالتالي تم اعتبارها غير ذات صلة، مما يقلل بشكل غير عادل من نتيجته المقاسة. هذا التحيز في المجمع هو السبب في استخدام مجمعات أعمق وأكثر تنوعًا ومقاييس قوية للحكم عند إعادة استخدام المجموعات.

Methods for this concept

Related concepts