التقييم في استرجاع المعلومات
التقييم في استرجاع المعلومات هو المنهجية المستخدمة لقياس مدى تلبية نظام الاسترجاع للاحتياجات المعلوماتية، وذلك باستخدام مجموعات الاختبار، وأحكام الملاءمة، ومقاييس الفعالية.
Definition
تقييم استرجاع المعلومات هو مجموعة من الأساليب والمقاييس التجريبية المستخدمة لتحديد فعالية النظام في إرجاع النتائج ذات الصلة للاحتياجات المعلوماتية المعلنة، ويشمل تجارب مجموعات الاختبار غير المتصلة بالإنترنت والتجارب القائمة على المستخدم عبر الإنترنت.
Scope
يغطي هذا المجال كيفية قياس جودة الاسترجاع: نموذج كرانفيلد لمجموعات الاختبار من الوثائق، والاستعلامات، وأحكام الملاءمة؛ ومقاييس الفعالية مثل الدقة (precision)، والاستدعاء (recall)، ومتوسط الدقة (mean average precision)، والكسب التراكمي المخصوم المعياري (normalized discounted cumulative gain)؛ وطرق التجميع والتقييم لجمع الأحكام على نطاق واسع؛ والتقييم المرتكز على المستخدم والتقييم عبر الإنترنت من خلال الدراسات والتجارب المضبوطة مثل اختبار A/B والتشابك (interleaving). ويتناول علم قياس الفعالية، وهو متميز عن النماذج والأنظمة التي يتم قياسها.
Sub-topics
Core questions
- كيف يمكن تحديد جودة قائمة مرتبة كميًا بشكل موضوعي؟
- ما الذي يشكل مجموعة اختبار قابلة لإعادة الاستخدام، وكيف يتم الحكم على الملاءمة؟
- ما هي المقاييس التي تعكس الجودة المدركة للمستخدم للتصنيفات؟
- كيف يمكن جمع أحكام الملاءمة بتكلفة معقولة للمجموعات الكبيرة؟
- كيف تقيس التجارب عبر الإنترنت رضا المستخدم الحقيقي؟
Key concepts
- مجموعة الاختبار
- أحكام الملاءمة (qrels)
- الدقة والاستدعاء
- متوسط الدقة (MAP)
- الكسب التراكمي المخصوم المعياري (nDCG)
- التجميع
- التشابك واختبار A/B
- الأهمية الإحصائية للنتائج
Key theories
- نموذج كرانفيلد لمجموعات الاختبار
- يمكن مقارنة أنظمة الاسترجاع بشكل قابل للتكرار عن طريق تثبيت مجموعة وثائق، ومجموعة من الاستعلامات، وأحكام الملاءمة البشرية، ثم تسجيل مخرجات كل نظام مقابل الأحكام، مما يسمح بإجراء تجارب مضبوطة وقابلة للتكرار.
- الفعالية كبنية قابلة للقياس
- يؤدي تحديد المقاييس على المخرجات المرتبة، من الدقة والاستدعاء القائمين على المجموعات إلى المقاييس الحساسة للترتيب مثل متوسط الدقة والكسب التراكمي المخصوم، إلى تحويل المفهوم الغامض لجودة البحث إلى كميات يمكن حساب متوسطها عبر الاستعلامات ومقارنتها إحصائيًا.
- تكامل التقييم غير المتصل بالإنترنت وعبر الإنترنت
- توفر تجارب مجموعات الاختبار قابلية التكرار والتحكم ولكنها تعتمد على الملاءمة المحكوم عليها، بينما تقيس التجارب عبر الإنترنت مثل اختبارات A/B والتشابك سلوك المستخدم الحقيقي، ويقدم الاثنان معًا صورة أكمل لجودة النظام.
Clinical relevance
التقييم الدقيق هو ما يسمح للمجال بقياس التقدم ومقارنة الأنظمة بشكل عادل؛ وقد أدت مجموعات الاختبار المشتركة وحملات التقييم مثل TREC إلى عقود من التقدم. وتعد أساليب التقييم عبر الإنترنت مثل اختبار A/B والتشابك أدوات أساسية لتحسين أنظمة البحث والتوصية الإنتاجية.
History
بدأ التقييم المنهجي لاسترجاع المعلومات بتجارب كليفردون في كرانفيلد في الستينيات، والتي أرست نموذج مجموعات الاختبار. وقد قام مؤتمر استرجاع النصوص (TREC)، الذي أطلقته NIST في عام 1992، بتوسيع نطاق هذا النهج ليشمل مجموعات كبيرة والعديد من المهام، موحدًا المقاييس والتجميع. ونما التقييم عبر الإنترنت من خلال التجارب المضبوطة مع الأنظمة التفاعلية على نطاق الويب.
Key figures
- Cyril Cleverdon
- Ellen M. Voorhees
- Karen Spärck Jones
- Mark Sanderson
Related topics
Seminal works
- cleverdon1967
- voorhees2005
- sanderson2010
Frequently asked questions
- لماذا تعتبر مجموعات الاختبار أساسية جدًا لبحوث استرجاع المعلومات؟
- تسمح مجموعة اختبار من الوثائق والاستعلامات وأحكام الملاءمة بتقييم أنظمة مختلفة على نفس المهمة بالضبط، مما يجعل المقارنات قابلة للتكرار وعادلة. كما تسمح المجموعات القابلة لإعادة الاستخدام بتقييم الأنظمة الجديدة دون جمع أحكام جديدة في كل مرة.
- لماذا نستخدم التقييم عبر الإنترنت إذا كانت مجموعات الاختبار موجودة؟
- تقيس مجموعات الاختبار الفعالية مقابل أحكام ثابتة ولكنها لا تستطيع التقاط رضا المستخدم الحقيقي أو السياق أو السلوك بشكل كامل. تراقب التجارب عبر الإنترنت مثل اختبارات A/B والتشابك كيفية استجابة المستخدمين الفعليين، مكملة المقاييس غير المتصلة بالإنترنت بأدلة سلوكية.