نماذج الاسترجاع
نماذج الاسترجاع هي الأطر الرسمية التي تحدد معنى مطابقة المستند للاستعلام وكيفية تسجيل المستندات وترتيبها استجابةً لحاجة معلوماتية.
Definition
نموذج الاسترجاع هو تحديد دقيق لتمثيلات المستندات والاستعلامات جنبًا إلى جنب مع دالة ترتيب أو مطابقة تقوم، عند إعطاء استعلام، بتعيين درجة لكل مستند تعكس صلته المقدرة بالحاجة المعلوماتية الأساسية.
Scope
تغطي هذه المنطقة النماذج الرياضية الرئيسية المستخدمة لمطابقة الاستعلامات مع المستندات وترتيب النتائج: الاسترجاع البولياني القائم على نظرية المجموعات والاسترجاع البولياني الموسع، ونموذج الفضاء المتجه الجبري مع ترجيح المصطلحات مثل tf-idf، والنماذج الاحتمالية بما في ذلك نموذج الاستقلال الثنائي و BM25، ونماذج اللغة الإحصائية للاسترجاع. وتتناول كيفية إضفاء الطابع الرسمي على الصلة، وكيفية تعيين أوزان المصطلحات، وكيف تؤدي درجة التشابه أو الاحتمالية إلى ترتيب. وتستبعد هياكل البيانات التي تجعل الاسترجاع فعالاً (مغطاة تحت الفهرسة ومعالجة الاستعلام) والقياس التجريبي لمدى أداء النموذج (مغطاة تحت التقييم).
Sub-topics
Core questions
- ما هو التمثيل الرسمي للمستندات والاستعلامات الذي يفترضه النموذج؟
- كيف يترجم النموذج التمثيل إلى درجة صلة أو قرار مطابقة؟
- كيف يتم ترجيح المصطلحات الفردية لتعكس أهميتها داخل المستند وعبر المجموعة؟
- كيف يأخذ النموذج في الاعتبار عدم اليقين المتأصل في الصلة؟
- ما هي الافتراضات (مثل استقلالية المصطلحات) التي يقوم بها النموذج، ومتى تفشل؟
Key concepts
- الصلة
- ترجيح المصطلحات و tf-idf
- الاسترجاع البولياني
- الفضاء المتجه وتشابه جيب التمام
- مبدأ الترتيب الاحتمالي
- نموذج الاستقلال الثنائي و BM25
- احتمالية الاستعلام والتسوية
- افتراض استقلالية المصطلحات
- دالة الترتيب
Key theories
- نموذج الفضاء المتجه
- يتم تمثيل المستندات والاستعلامات كمتجهات في فضاء مصطلحات عالي الأبعاد، عادةً بأوزان tf-idf، ويتم تقدير الصلة عن طريق تشابه هندسي مثل جيب تمام الزاوية بين متجهات الاستعلام والمستند.
- مبدأ الترتيب الاحتمالي والاسترجاع الاحتمالي
- يؤدي ترتيب المستندات حسب احتمالية صلتها المقدرة باستعلام إلى تحسين فعالية الاسترجاع بموجب افتراضات محددة؛ يقوم نموذج الاستقلال الثنائي ونسخته العملية BM25 بتفعيل ذلك بترجيح المصطلحات المشتق من احتمالات الصلة.
- نهج نمذجة اللغة للاسترجاع
- يُعامل كل مستند كعينة من نموذج لغوي توليدي، ويتم ترتيب المستندات حسب الاحتمالية التي كان نموذجها سيولد الاستعلام، مع استخدام التسوية للتعامل مع مصطلحات الاستعلام غير المرئية.
Clinical relevance
نماذج الاسترجاع هي جوهر التسجيل لكل نظام بحث تقريبًا، من فهارس المكتبات وبحث المؤسسات إلى محركات البحث على الويب ومراحل ترتيب المرشحين في الإجابة على الأسئلة والتوليد المعزز بالاسترجاع. يظل tf-idf و BM25 على وجه الخصوص أساسين قويين ومنتشرين على نطاق واسع.
History
ظهر نموذج الفضاء المتجه من مشروع SMART لسالطون في الستينيات والسبعينيات، مما أعطى الاسترجاع أساسًا جبريًا. بالتوازي، طور روبرتسون وسبارك جونز نظرية احتمالية لترجيح الصلة في السبعينيات، والتي تطورت لاحقًا إلى دالة الترتيب BM25. أعاد نهج نمذجة اللغة، الذي قدمه بونتي وكروفت في عام 1998، صياغة الاسترجاع كتوليد إحصائي ووسع مجموعة أدوات النمذجة.
Key figures
- Gerard Salton
- Stephen E. Robertson
- Karen Spärck Jones
- W. Bruce Croft
- C. J. van Rijsbergen
Related topics
Seminal works
- salton1975
- robertson1976
- ponte1998
- manning2008
Frequently asked questions
- ما الفرق بين نموذج الاسترجاع ودالة الترتيب؟
- نموذج الاسترجاع هو الإطار العام الذي يحدد كيفية تمثيل المستندات والاستعلامات وكيفية تصور الصلة؛ دالة الترتيب هي صيغة التسجيل الملموسة التي ينتجها النموذج، مثل تشابه جيب التمام في نموذج الفضاء المتجه أو صيغة BM25 في الفئة الاحتمالية.
- لماذا لا يزال BM25 مستخدمًا بينما توجد نماذج عصبية؟
- BM25 سريع، ولا يتطلب بيانات تدريب، ولديه عدد قليل جدًا من المعلمات، ويظل أساسًا قويًا يتم قياس المصنفات العصبية غالبًا عليه ودمجها معه. تستخدم العديد من الأنظمة الحديثة BM25 لاسترجاع مجموعة أولية من المرشحين يقوم نموذج أكثر تكلفة بإعادة ترتيبها بعد ذلك.