ScholarGate
المساعد

الفهارس المقلوبة

يربط الفهرس المقلوب كل مصطلح في مجموعة بقائمة منشورات (postings list) للوثائق التي تحتوي عليه، مما يمكّن نظام البحث من العثور على الوثائق المطابقة دون مسح كل وثيقة.

اعثر على موضوع باستخدام PaperMindقريبًاFind papers & topics
Tools & resources
تنزيل الشرائح
Learn & explore
فيديوقريبًا

Definition

الفهرس المقلوب هو بنية بيانات تتكون من قاموس للمصطلحات المفهرسة، يشير كل منها إلى قائمة منشورات (postings list) تسرد الوثائق التي تحتوي على المصطلح، وغالبًا ما تكون مشروحة بالتكرارات ومواقع المصطلحات، بحيث يمكن إجراء الاسترجاع عن طريق تقاطع أو دمج قوائم المنشورات.

Scope

يغطي هذا الموضوع بنية الفهرس المقلوب وبناءه: قاموس المصطلحات، وقوائم المنشورات التي تسجل معرفات الوثائق، وتكرارات المصطلحات، ومواقعها، والخوارزميات التي تبني وتحدّث الفهارس عبر مجموعات كبيرة، بما في ذلك الفهرسة القائمة على الفرز المقطعي (blocked sort-based indexing) والفهرسة أحادية المرور في الذاكرة (single-pass in-memory indexing). يتناول الموضوع المعلومات الموضعية لاستعلامات العبارات وهندسة صيانة الفهرس، مع ترك الضغط واستراتيجية تقييم الاستعلام لمواضيع مجاورة.

Core questions

  • ماذا يحتوي إدخال القاموس وقائمة منشوراته؟
  • كيف تُخزّن المواقع لدعم استعلامات العبارات والقرب؟
  • كيف يُبنى الفهرس المقلوب عندما تكون المجموعة أكبر من الذاكرة؟
  • كيف يُحدّث الفهرس عند إضافة وثائق أو تغييرها أو حذفها؟
  • كيف تدعم قوائم المنشورات التقاطع الفعال للاستعلامات العطفية؟

Key concepts

  • قاموس المصطلحات
  • قائمة المنشورات
  • معرفات الوثائق
  • الفهرس الموضعي
  • تخزين تكرار المصطلحات
  • الفهرسة القائمة على الفرز المقطعي (BSBI)
  • الفهرسة أحادية المرور في الذاكرة (SPIMI)
  • دمج الفهرس والتحديثات

Key theories

تنظيم القاموس والمنشورات
يسمح فصل قاموس مصطلحات مدمج عن قوائم منشورات متغيرة الطول للنظام بالبحث عن مصطلح بسرعة ثم بث الوثائق ذات الصلة فقط، وهو الأساس الهيكلي لجميع عمليات استرجاع الفهرس المقلوب.
بناء الفهرس القابل للتطوير
تبني الطرق القائمة على القرص مثل الفهرسة القائمة على الفرز المقطعي والفهرسة أحادية المرور في الذاكرة ملفات مقلوبة لمجموعات أكبر بكثير من الذاكرة عن طريق تجميع ودمج الفهارس الجزئية.

Clinical relevance

الفهرس المقلوب هو بنية البيانات المركزية لجميع أنظمة البحث النصي تقريبًا، بما في ذلك محركات البحث على الويب، ومنصات البحث مفتوحة المصدر مثل Lucene ومشتقاتها، والبحث النصي الكامل في قواعد البيانات. يحدد تصميمه أنواع الاستعلامات المدعومة ومدى سرعة ورخص الإجابة عليها.

History

استُخدمت الملفات المقلوبة في أنظمة استرجاع المراجع الببليوغرافية المبكرة وأصبحت البنية القياسية للبحث النصي الكامل مع تزايد المجموعات. أدت الأبحاث في التسعينيات والعقد الأول من القرن الحادي والعشرين، بما في ذلك طرق البناء القابلة للتطوير مثل الفهرسة أحادية المرور في الذاكرة، إلى جعل فهرسة المجموعات على نطاق الويب أمرًا عمليًا، وتُعد هذه البنية الآن أساسًا لمكتبات البحث مفتوحة المصدر واسعة الاستخدام.

Key figures

  • Justin Zobel
  • Alistair Moffat
  • Steffen Heinz

Related topics

Seminal works

  • zobel2006
  • heinz2003
  • manning2008

Frequently asked questions

لماذا يُطلق عليه فهرس 'مقلوب'؟
يسرد الفهرس العادي (الأمامي)، لكل وثيقة، المصطلحات التي تحتوي عليها. يعكس الفهرس المقلوب هذا الربط ليسرد، لكل مصطلح، الوثائق التي تحتوي عليه. هذا الانعكاس هو بالضبط ما يجعل البحث القائم على المصطلحات سريعًا.
ما هو استخدام الفهرس الموضعي؟
يخزن الفهرس الموضعي المواقع التي يظهر فيها كل مصطلح داخل كل وثيقة. يتيح ذلك للنظام الإجابة على استعلامات العبارات واستعلامات القرب، حيث يكون ترتيب المصطلحات أو قربها مهمًا، بدلاً من مجرد ظهور المصطلحات في مكان ما في الوثيقة.

Methods for this concept

Related concepts