ScholarGate
المساعد

مجموعات الاختبار وأحكام الملاءمة

تجمع مجموعة الاختبار مجموعة من الوثائق، ومجموعة من الاستعلامات، وأحكام الملاءمة البشرية بحيث يمكن تقييم أنظمة الاسترجاع ومقارنتها بشكل قابل للتكرار.

اعثر على موضوع باستخدام PaperMindقريبًاFind papers & topics
Tools & resources
تنزيل الشرائح
Learn & explore
فيديوقريبًا

Definition

مجموعة الاختبار هي مجموعة بيانات ثابتة تتألف من مجموعة من الوثائق، ومجموعة من بيانات الاستعلام أو الموضوع التي تصف الاحتياجات المعلوماتية، وأحكام الملاءمة التي تحدد الوثائق ذات الصلة بكل موضوع، مما يتيح معًا قياس فعالية الاسترجاع بشكل قابل للتكرار.

Scope

يغطي هذا الموضوع بناء واستخدام مجموعات اختبار استرجاع المعلومات (IR) القابلة لإعادة الاستخدام وفقًا لنموذج كرانفيلد: مجموعة الوثائق، وبيانات الموضوع التي تحدد الاحتياجات المعلوماتية، وأحكام الملاءمة (qrels) التي تسجل الوثائق ذات الصلة بكل موضوع. ويتناول الملاءمة المتدرجة مقابل الثنائية، واتساق الأحكام، وقابلية إعادة استخدام المجموعات للأنظمة الجديدة، ودور الجهود واسعة النطاق مثل TREC. ويستبعد المقاييس المحسوبة من الأحكام وإجراءات التجميع المستخدمة لجمعها، والتي تعد مواضيع مجاورة.

Core questions

  • ما هي المكونات الثلاثة لمجموعة اختبار على غرار كرانفيلد؟
  • كيف تختلف الاحتياجات المعلوماتية المعبر عنها كمواضيع عن الاستعلامات القصيرة المعطاة للأنظمة؟
  • كيف يتم تعريف وتسجيل الملاءمة، ومتى تُستخدم الملاءمة المتدرجة؟
  • ما مدى اتساق أحكام الملاءمة البشرية، وهل يؤثر عدم الاتساق على المقارنات؟
  • ما الذي يجعل مجموعة الاختبار قابلة لإعادة الاستخدام للأنظمة التي لم تساهم فيها؟

Key concepts

  • مجموعة الوثائق
  • بيان الموضوع / الحاجة المعلوماتية
  • أحكام الملاءمة (qrels)
  • الملاءمة الثنائية مقابل المتدرجة
  • اتفاق المقيمين
  • قابلية إعادة استخدام المجموعة
  • مجموعات اختبار TREC
  • الحقيقة الأساسية للتقييم

Key theories

نموذج كرانفيلد
يؤدي تثبيت الوثائق والاستعلامات وأحكام الملاءمة إلى إنشاء بيئة معملية مضبوطة يمكن فيها تقييم المخرجات المصنفة لأي نظام مقابل الأحكام، مما يجعل تجارب الاسترجاع قابلة للتكرار والمقارنة.
متانة المقارنات تجاه اختلاف المحكمين
على الرغم من أن المقيمين البشريين يختلفون حول قرارات الملاءمة الفردية، إلا أن الدراسات تظهر أن الترتيب النسبي للأنظمة في مجموعة ما مستقر إلى حد كبير عبر المقيمين، مما يدعم صحة مقارنات مجموعات الاختبار.

Clinical relevance

تعد مجموعات الاختبار المشتركة العملة المتداولة في أبحاث استرجاع المعلومات، مما يتيح للباحثين في جميع أنحاء العالم مقارنة الأنظمة في مهام متطابقة وتكرار النتائج. وقد شكلت المجموعات المستمدة من حملات التقييم مثل TREC وCLEF وNTCIR عقودًا من التقدم وتظل معايير قياسية للطرق الجديدة للاسترجاع.

History

نشأت منهجية مجموعات الاختبار مع تجارب كرانفيلد التي أجراها كليفردون في الستينيات، والتي قارنت مناهج الفهرسة باستخدام استعلامات وأحكام ثابتة. وقد أدى إطلاق TREC في عام 1992 إلى توسيع النموذج ليشمل مجموعات كبيرة وواقعية والعديد من المهام، مما أنتج المجموعات الموحدة والقابلة لإعادة الاستخدام التي ترتكز عليها تقييمات استرجاع المعلومات الحديثة.

Key figures

  • Cyril Cleverdon
  • Ellen M. Voorhees
  • Donna Harman

Related topics

Seminal works

  • cleverdon1967
  • voorhees2005

Frequently asked questions

ما هي 'qrels'؟
Qrels (أحكام ملاءمة الاستعلام) هي السجلات التي تحدد، لكل موضوع في مجموعة اختبار، الوثائق التي تم الحكم عليها بأنها ذات صلة وبأي درجة. تقارن أدوات التقييم المخرجات المصنفة للنظام مقابل qrels لحساب مقاييس الفعالية.
هل تؤدي الخلافات بين المحكمين البشريين إلى إبطال مجموعات الاختبار؟
يختلف المقيمون بالفعل حول الوثائق الفردية، لكن الأبحاث أظهرت مرارًا وتكرارًا أن الترتيب النسبي للأنظمة يظل مستقرًا عبر المقيمين المختلفين. لذلك بينما تتغير الدرجات المطلقة، فإن الاستنتاجات حول أي نظام أفضل تكون قوية بشكل عام.

Methods for this concept

Related concepts