ScholarGate
المساعد

مقاييس فعالية استرجاع المعلومات

تحوّل مقاييس الفعالية قائمة النتائج المرتبة إلى رقم يعكس مدى تلبيتها للحاجة المعلوماتية، مما يتيح مقارنة الأنظمة ومتوسط أدائها عبر الاستعلامات.

اعثر على موضوع باستخدام PaperMindقريبًاFind papers & topics
Tools & resources
تنزيل الشرائح
Learn & explore
فيديوقريبًا

Definition

مقياس فعالية استرجاع المعلومات (IR effectiveness metric) هو دالة تربط المخرجات المرتبة لنظام لاستعلام واحد أو أكثر، جنبًا إلى جنب مع أحكام الملاءمة، بدرجة تحدد جودة الاسترجاع، مع تركيز المقاييس المختلفة على الاستدعاء، أو الدقة المبكرة، أو الكسب المتدرج في المراتب العليا.

Scope

يغطي هذا الموضوع المقاييس المستخدمة لتقييم مخرجات الاسترجاع: الدقة والاستدعاء القائمة على المجموعات وتركيبتهما (مقياس F)، والمقاييس الحساسة للترتيب بما في ذلك الدقة عند k، ومتوسط الدقة ومتوسط الدقة الكلي، والترتيب التبادلي، والمقاييس القائمة على الكسب مثل الكسب التراكمي المخصوم وشكله المعياري. ويتناول ما يكافئه كل مقياس، وكيف تتعامل المقاييس مع الملاءمة المتدرجة والأحكام غير المكتملة، وكيف يتم تجميع الدرجات واختبار دلالتها. ويستثني المجموعات والأحكام التي توفر بيانات الملاءمة.

Core questions

  • كيف تعكس الدقة والاستدعاء جوانب متكاملة من جودة الاسترجاع؟
  • لماذا نحتاج إلى مقاييس حساسة للترتيب عندما يفحص المستخدمون النتائج من الأعلى إلى الأسفل؟
  • كيف يلخص متوسط الدقة قائمة مرتبة في رقم واحد؟
  • كيف تستخدم المقاييس القائمة على الكسب مثل nDCG الملاءمة المتدرجة وخصم الرتبة؟
  • كيف تتأثر المقاييس بأحكام الملاءمة غير المكتملة؟

Key concepts

  • الدقة والاستدعاء
  • مقياس F
  • الدقة عند k
  • متوسط الدقة ومتوسط الدقة الكلي (MAP)
  • متوسط الترتيب التبادلي (MRR)
  • الكسب التراكمي المخصوم (DCG / nDCG)
  • الملاءمة المتدرجة
  • مقاييس قوية للأحكام غير المكتملة (bpref)

Key theories

الدقة، الاستدعاء، ومتوسط الدقة
تقيس الدقة والاستدعاء نسبة العناصر المسترجعة ذات الصلة ونسبة العناصر ذات الصلة التي تم استرجاعها؛ يدمج متوسط الدقة الدقة عبر مستويات الاستدعاء لاستعلام واحد، ومتوسطه عبر الاستعلامات (MAP) هو ملخص قياسي للاسترجاع المرتب.
الكسب التراكمي المخصوم
يعين التقييم القائم على الكسب لكل نتيجة كسبًا وفقًا لملاءمتها المتدرجة ويخصم المكاسب في المراتب الأدنى، ثم يقوم بالمعايرة مقابل الترتيب المثالي، مما ينتج عنه nDCG، الذي يكافئ وضع العناصر عالية الصلة بالقرب من الأعلى.
التقييم بأحكام غير مكتملة
عندما لا يتم الحكم على جميع المستندات، يمكن أن تكون المقاييس الساذجة متحيزة، مما يحفز مقاييس مثل bpref و AP المستنتج التي تكون أكثر قوة تجاه المستندات غير المحكوم عليها في المجموعات الكبيرة أو المجمعة.

Clinical relevance

مقاييس الفعالية هي المعيار الذي يقيس به البحث والصناعة في مجال الاسترجاع التقدم ويختارون بين الأنظمة. يعتبر nDCG و MAP على وجه الخصوص روتينيين في حملات التقييم والاختبارات غير المتصلة بالإنترنت للإنتاج، ويحدد اختيار المقياس السلوكيات التي يتم تحسين نظام الترتيب لإنتاجها.

History

يعود تاريخ الدقة والاستدعاء إلى أقدم تجارب استرجاع المعلومات، وأصبح متوسط الدقة هو الأداة الرئيسية لتقييم TREC المخصص. قدمت مقاييس الكسب التراكمي لـ Järvelin و Kekäläinen في عام 2002 تقييمًا للملاءمة المتدرجة والمخصومة حسب الرتبة، مما أدى إلى ظهور nDCG، الذي أصبح مهيمنًا في ترتيب نمط الويب. أدت الأعمال المتعلقة بالأحكام غير المكتملة إلى إنتاج مقاييس قوية للمجموعات الكبيرة.

Key figures

  • Kalervo Järvelin
  • Jaana Kekäläinen
  • Ellen M. Voorhees
  • Chris Buckley

Related topics

Seminal works

  • manning2008
  • jarvelin2002
  • buckley2004

Frequently asked questions

لماذا لا تكفي الدقة وحدها لتقييم نظام البحث؟
تقيس الدقة عدد النتائج المسترجعة ذات الصلة ولكنها تتجاهل عدد المستندات ذات الصلة التي تم تفويتها، وهو ما يلتقطه الاستدعاء. يمكن أن يحقق النظام دقة مثالية عن طريق إرجاع نتيجة واحدة ذات صلة بشكل واضح بينما يفوت العديد من النتائج الأخرى، لذلك عادة ما يتم النظر في الاثنين معًا أو دمجهما في مقاييس حساسة للترتيب.
ما الميزة التي يقدمها nDCG على متوسط الدقة الكلي؟
يستخدم nDCG الملاءمة المتدرجة، مميزًا بين النتائج عالية الصلة والنتائج ذات الصلة بشكل هامشي، ويخصم المكاسب صراحة في المراتب الأدنى. وهذا يجعله مناسبًا تمامًا للبحث على الويب، حيث يهتم المستخدمون بالنتائج العليا بشكل خاص وحيث لا تكون الملاءمة مجرد نعم أو لا.

Methods for this concept

Related concepts