ScholarGate
المساعد

نماذج الاسترجاع الاحتمالية

تقوم نماذج الاسترجاع الاحتمالية بترتيب الوثائق حسب احتمالية تقديرها لكونها ذات صلة باستعلام ما، وترتكز على نظرية الاحتمالات في تحديد أوزان المصطلحات.

اعثر على موضوع باستخدام PaperMindقريبًاFind papers & topics
Tools & resources
تنزيل الشرائح
Learn & explore
فيديوقريبًا

Definition

يقدر نموذج الاسترجاع الاحتمالي، لكل وثيقة، احتمالية أن تكون ذات صلة باستعلام معين ويرتب الوثائق حسب تلك الاحتمالية، مستمدًا أوزان المصطلحات من الاحتمالية النسبية لظهور المصطلحات في الوثائق ذات الصلة مقابل الوثائق غير ذات الصلة.

Scope

يغطي هذا الموضوع نماذج الاسترجاع المبنية على نظرية الاحتمالات: مبدأ ترتيب الاحتمالات، ونموذج الاستقلالية الثنائية ومخطط ترجيح الصلة الخاص به، ودالة ترتيب BM25 مع تشبع تكرار المصطلح وتطبيع طول الوثيقة. ويتناول كيفية نمذجة الصلة كحدث احتمالي، وكيفية تقدير أوزان المصطلحات من معلومات الصلة، ولماذا تكون الترتيبات الناتجة مثالية نظريًا في ظل الافتراضات المذكورة. ويستثني نماذج اللغة التوليدية، التي تُعالج بشكل منفصل.

Core questions

  • ماذا يؤكد مبدأ ترتيب الاحتمالات بشأن الترتيب الأمثل؟
  • كيف تُشتق أوزان المصطلحات من احتمالية ظهور مصطلح في الوثائق ذات الصلة مقابل الوثائق غير ذات الصلة؟
  • ما هي افتراضات الاستقلالية التي يفترضها نموذج الاستقلالية الثنائية؟
  • كيف تأخذ BM25 في الاعتبار تشبع تكرار المصطلح وطول الوثيقة؟
  • كيف يمكن للتغذية الراجعة للصلة تحسين تقديرات الاحتمالية؟

Key concepts

  • احتمالية الصلة
  • مبدأ ترتيب الاحتمالات
  • نموذج الاستقلالية الثنائية
  • ترجيح الصلة
  • BM25 / أوكابي BM25
  • تشبع تكرار المصطلح
  • تطبيع طول الوثيقة
  • التغذية الراجعة للصلة

Key theories

مبدأ ترتيب الاحتمالات
يؤدي ترتيب الوثائق بترتيب تنازلي لاحتمالية صلتها إلى أفضل فعالية إجمالية للمستخدم في ظل افتراضات أحكام الصلة المستقلة، مما يوفر التبرير النظري للترتيب الاحتمالي.
نموذج الاستقلالية الثنائية
من خلال التعامل مع الوثائق كمتجهات ثنائية لوجود المصطلح وافتراض أن المصطلحات تحدث بشكل مستقل بالنظر إلى الصلة، يستمد النموذج وزن صلة لكل مصطلح من احتمالات حدوثه في الوثائق ذات الصلة مقابل الوثائق غير ذات الصلة.
دالة ترتيب BM25
تضيف دالة التسجيل العملية لإطار الصلة الاحتمالي تشبعًا غير خطي لتكرار المصطلح وتطبيعًا لطول الوثيقة إلى ترجيح الصلة، مما ينتج عنه أداة ترتيب قوية وقابلة للتعديل تظل خط أساس رائدًا.

Clinical relevance

تُعد BM25 واحدة من أكثر دوال الترتيب انتشارًا في أنظمة البحث الإنتاجية ومحركات البحث مفتوحة المصدر، وتعمل كخط أساس قوي قياسي تُقارن به أدوات الترتيب العصبية. كما أن ترجيح الصلة الاحتمالي يكمن وراء ميزات التغذية الراجعة للصلة التي تُحسّن النتائج بناءً على أحكام المستخدم.

History

أُسس الاسترجاع الاحتمالي على أساس متين من خلال نظرية ترجيح الصلة لروبرتسون وسبارك جونز عام 1976 والكتاب التأسيسي لفان رايزبرغن. وخلال الثمانينيات والتسعينيات، قام مشروع أوكابي في جامعة سيتي لندن بتحسين هذه الأفكار لتصبح دالة BM25، التي أثبتت هيمنتها في تقييمات TREC. وقد عزز مسح إطار الصلة الاحتمالي لعام 2009 هذه الفئة.

Key figures

  • Stephen E. Robertson
  • Karen Spärck Jones
  • C. J. van Rijsbergen
  • Hugo Zaragoza

Related topics

Seminal works

  • robertson1976
  • robertson2009
  • vanrijsbergen1979

Frequently asked questions

ما هو مبدأ ترتيب الاحتمالات؟
ينص على أنه إذا قام نظام استرجاع بترتيب الوثائق بترتيب تنازلي لاحتمالية صلتها بالاستعلام، فإنه، بافتراض أن أحكام الصلة مستقلة، يتم تحقيق أقصى قدر من الفعالية الإجمالية للمستخدم. وهو الأساس النظري للترتيب الاحتمالي.
لماذا تُعد BM25 فعالة جدًا على الرغم من الافتراضات البسيطة؟
تستوعب BM25 تأثيرين مهمين تجريبيًا تفوتهما الأوزان الأبسط: تناقص العوائد من تكرار ظهور المصطلحات (التشبع) والحاجة إلى التطبيع لطول الوثيقة. هذه التصحيحات، جنبًا إلى جنب مع أوزان المصطلحات الشبيهة بـ idf، تجعلها أداة ترتيب قوية بشكل ملحوظ.

Methods for this concept

Related concepts