Qrels (أحكام ملاءمة الاستعلام) هي السجلات التي تحدد، لكل موضوع في مجموعة اختبار، الوثائق التي تم الحكم عليها بأنها ذات صلة وبأي درجة. تقارن أدوات التقييم المخرجات المصنفة للنظام مقابل qrels لحساب مقاييس الفعالية.

هل تؤدي الخلافات بين المحكمين البشريين إلى إبطال مجموعات الاختبار؟

يختلف المقيمون بالفعل حول الوثائق الفردية، لكن الأبحاث أظهرت مرارًا وتكرارًا أن الترتيب النسبي للأنظمة يظل مستقرًا عبر المقيمين المختلفين. لذلك بينما تتغير الدرجات المطلقة، فإن الاستنتاجات حول أي نظام أفضل تكون قوية بشكل عام.

مجموعات الاختبار وأحكام الملاءمة

تجمع مجموعة الاختبار مجموعة من الوثائق، ومجموعة من الاستعلامات، وأحكام الملاءمة البشرية بحيث يمكن تقييم أنظمة الاسترجاع ومقارنتها بشكل قابل للتكرار.

اعثر على موضوع باستخدام PaperMindقريبًاFind papers & topics

Tools & resources

تنزيل الشرائح

Learn & explore

فيديوقريبًا

Definition

مجموعة الاختبار هي مجموعة بيانات ثابتة تتألف من مجموعة من الوثائق، ومجموعة من بيانات الاستعلام أو الموضوع التي تصف الاحتياجات المعلوماتية، وأحكام الملاءمة التي تحدد الوثائق ذات الصلة بكل موضوع، مما يتيح معًا قياس فعالية الاسترجاع بشكل قابل للتكرار.

Scope

يغطي هذا الموضوع بناء واستخدام مجموعات اختبار استرجاع المعلومات (IR) القابلة لإعادة الاستخدام وفقًا لنموذج كرانفيلد: مجموعة الوثائق، وبيانات الموضوع التي تحدد الاحتياجات المعلوماتية، وأحكام الملاءمة (qrels) التي تسجل الوثائق ذات الصلة بكل موضوع. ويتناول الملاءمة المتدرجة مقابل الثنائية، واتساق الأحكام، وقابلية إعادة استخدام المجموعات للأنظمة الجديدة، ودور الجهود واسعة النطاق مثل TREC. ويستبعد المقاييس المحسوبة من الأحكام وإجراءات التجميع المستخدمة لجمعها، والتي تعد مواضيع مجاورة.

Core questions

ما هي المكونات الثلاثة لمجموعة اختبار على غرار كرانفيلد؟
كيف تختلف الاحتياجات المعلوماتية المعبر عنها كمواضيع عن الاستعلامات القصيرة المعطاة للأنظمة؟
كيف يتم تعريف وتسجيل الملاءمة، ومتى تُستخدم الملاءمة المتدرجة؟
ما مدى اتساق أحكام الملاءمة البشرية، وهل يؤثر عدم الاتساق على المقارنات؟
ما الذي يجعل مجموعة الاختبار قابلة لإعادة الاستخدام للأنظمة التي لم تساهم فيها؟

Key concepts

مجموعة الوثائق
بيان الموضوع / الحاجة المعلوماتية
أحكام الملاءمة (qrels)
الملاءمة الثنائية مقابل المتدرجة
اتفاق المقيمين
قابلية إعادة استخدام المجموعة
مجموعات اختبار TREC
الحقيقة الأساسية للتقييم

Key theories

نموذج كرانفيلد: يؤدي تثبيت الوثائق والاستعلامات وأحكام الملاءمة إلى إنشاء بيئة معملية مضبوطة يمكن فيها تقييم المخرجات المصنفة لأي نظام مقابل الأحكام، مما يجعل تجارب الاسترجاع قابلة للتكرار والمقارنة.
متانة المقارنات تجاه اختلاف المحكمين: على الرغم من أن المقيمين البشريين يختلفون حول قرارات الملاءمة الفردية، إلا أن الدراسات تظهر أن الترتيب النسبي للأنظمة في مجموعة ما مستقر إلى حد كبير عبر المقيمين، مما يدعم صحة مقارنات مجموعات الاختبار.

Clinical relevance

تعد مجموعات الاختبار المشتركة العملة المتداولة في أبحاث استرجاع المعلومات، مما يتيح للباحثين في جميع أنحاء العالم مقارنة الأنظمة في مهام متطابقة وتكرار النتائج. وقد شكلت المجموعات المستمدة من حملات التقييم مثل TREC وCLEF وNTCIR عقودًا من التقدم وتظل معايير قياسية للطرق الجديدة للاسترجاع.

History

نشأت منهجية مجموعات الاختبار مع تجارب كرانفيلد التي أجراها كليفردون في الستينيات، والتي قارنت مناهج الفهرسة باستخدام استعلامات وأحكام ثابتة. وقد أدى إطلاق TREC في عام 1992 إلى توسيع النموذج ليشمل مجموعات كبيرة وواقعية والعديد من المهام، مما أنتج المجموعات الموحدة والقابلة لإعادة الاستخدام التي ترتكز عليها تقييمات استرجاع المعلومات الحديثة.

Key figures

Cyril Cleverdon
Ellen M. Voorhees
Donna Harman

Seminal works

cleverdon1967
voorhees2005

Frequently asked questions

ما هي 'qrels'؟: Qrels (أحكام ملاءمة الاستعلام) هي السجلات التي تحدد، لكل موضوع في مجموعة اختبار، الوثائق التي تم الحكم عليها بأنها ذات صلة وبأي درجة. تقارن أدوات التقييم المخرجات المصنفة للنظام مقابل qrels لحساب مقاييس الفعالية.
هل تؤدي الخلافات بين المحكمين البشريين إلى إبطال مجموعات الاختبار؟: يختلف المقيمون بالفعل حول الوثائق الفردية، لكن الأبحاث أظهرت مرارًا وتكرارًا أن الترتيب النسبي للأنظمة يظل مستقرًا عبر المقيمين المختلفين. لذلك بينما تتغير الدرجات المطلقة، فإن الاستنتاجات حول أي نظام أفضل تكون قوية بشكل عام.