ScholarGate
المساعد

نماذج الاسترجاع

نماذج الاسترجاع هي الأطر الرسمية التي تحدد معنى مطابقة المستند للاستعلام وكيفية تسجيل المستندات وترتيبها استجابةً لحاجة معلوماتية.

اعثر على موضوع باستخدام PaperMindقريبًاFind papers & topics
Tools & resources
تنزيل الشرائح
Learn & explore
فيديوقريبًا

Definition

نموذج الاسترجاع هو تحديد دقيق لتمثيلات المستندات والاستعلامات جنبًا إلى جنب مع دالة ترتيب أو مطابقة تقوم، عند إعطاء استعلام، بتعيين درجة لكل مستند تعكس صلته المقدرة بالحاجة المعلوماتية الأساسية.

Scope

تغطي هذه المنطقة النماذج الرياضية الرئيسية المستخدمة لمطابقة الاستعلامات مع المستندات وترتيب النتائج: الاسترجاع البولياني القائم على نظرية المجموعات والاسترجاع البولياني الموسع، ونموذج الفضاء المتجه الجبري مع ترجيح المصطلحات مثل tf-idf، والنماذج الاحتمالية بما في ذلك نموذج الاستقلال الثنائي و BM25، ونماذج اللغة الإحصائية للاسترجاع. وتتناول كيفية إضفاء الطابع الرسمي على الصلة، وكيفية تعيين أوزان المصطلحات، وكيف تؤدي درجة التشابه أو الاحتمالية إلى ترتيب. وتستبعد هياكل البيانات التي تجعل الاسترجاع فعالاً (مغطاة تحت الفهرسة ومعالجة الاستعلام) والقياس التجريبي لمدى أداء النموذج (مغطاة تحت التقييم).

Sub-topics

Core questions

  • ما هو التمثيل الرسمي للمستندات والاستعلامات الذي يفترضه النموذج؟
  • كيف يترجم النموذج التمثيل إلى درجة صلة أو قرار مطابقة؟
  • كيف يتم ترجيح المصطلحات الفردية لتعكس أهميتها داخل المستند وعبر المجموعة؟
  • كيف يأخذ النموذج في الاعتبار عدم اليقين المتأصل في الصلة؟
  • ما هي الافتراضات (مثل استقلالية المصطلحات) التي يقوم بها النموذج، ومتى تفشل؟

Key concepts

  • الصلة
  • ترجيح المصطلحات و tf-idf
  • الاسترجاع البولياني
  • الفضاء المتجه وتشابه جيب التمام
  • مبدأ الترتيب الاحتمالي
  • نموذج الاستقلال الثنائي و BM25
  • احتمالية الاستعلام والتسوية
  • افتراض استقلالية المصطلحات
  • دالة الترتيب

Key theories

نموذج الفضاء المتجه
يتم تمثيل المستندات والاستعلامات كمتجهات في فضاء مصطلحات عالي الأبعاد، عادةً بأوزان tf-idf، ويتم تقدير الصلة عن طريق تشابه هندسي مثل جيب تمام الزاوية بين متجهات الاستعلام والمستند.
مبدأ الترتيب الاحتمالي والاسترجاع الاحتمالي
يؤدي ترتيب المستندات حسب احتمالية صلتها المقدرة باستعلام إلى تحسين فعالية الاسترجاع بموجب افتراضات محددة؛ يقوم نموذج الاستقلال الثنائي ونسخته العملية BM25 بتفعيل ذلك بترجيح المصطلحات المشتق من احتمالات الصلة.
نهج نمذجة اللغة للاسترجاع
يُعامل كل مستند كعينة من نموذج لغوي توليدي، ويتم ترتيب المستندات حسب الاحتمالية التي كان نموذجها سيولد الاستعلام، مع استخدام التسوية للتعامل مع مصطلحات الاستعلام غير المرئية.

Clinical relevance

نماذج الاسترجاع هي جوهر التسجيل لكل نظام بحث تقريبًا، من فهارس المكتبات وبحث المؤسسات إلى محركات البحث على الويب ومراحل ترتيب المرشحين في الإجابة على الأسئلة والتوليد المعزز بالاسترجاع. يظل tf-idf و BM25 على وجه الخصوص أساسين قويين ومنتشرين على نطاق واسع.

History

ظهر نموذج الفضاء المتجه من مشروع SMART لسالطون في الستينيات والسبعينيات، مما أعطى الاسترجاع أساسًا جبريًا. بالتوازي، طور روبرتسون وسبارك جونز نظرية احتمالية لترجيح الصلة في السبعينيات، والتي تطورت لاحقًا إلى دالة الترتيب BM25. أعاد نهج نمذجة اللغة، الذي قدمه بونتي وكروفت في عام 1998، صياغة الاسترجاع كتوليد إحصائي ووسع مجموعة أدوات النمذجة.

Key figures

  • Gerard Salton
  • Stephen E. Robertson
  • Karen Spärck Jones
  • W. Bruce Croft
  • C. J. van Rijsbergen

Related topics

Seminal works

  • salton1975
  • robertson1976
  • ponte1998
  • manning2008

Frequently asked questions

ما الفرق بين نموذج الاسترجاع ودالة الترتيب؟
نموذج الاسترجاع هو الإطار العام الذي يحدد كيفية تمثيل المستندات والاستعلامات وكيفية تصور الصلة؛ دالة الترتيب هي صيغة التسجيل الملموسة التي ينتجها النموذج، مثل تشابه جيب التمام في نموذج الفضاء المتجه أو صيغة BM25 في الفئة الاحتمالية.
لماذا لا يزال BM25 مستخدمًا بينما توجد نماذج عصبية؟
BM25 سريع، ولا يتطلب بيانات تدريب، ولديه عدد قليل جدًا من المعلمات، ويظل أساسًا قويًا يتم قياس المصنفات العصبية غالبًا عليه ودمجها معه. تستخدم العديد من الأنظمة الحديثة BM25 لاسترجاع مجموعة أولية من المرشحين يقوم نموذج أكثر تكلفة بإعادة ترتيبها بعد ذلك.

Methods for this concept

Related concepts