چرا به آن نمایه 'معکوس' میگویند؟

یک نمایه عادی (رو به جلو) برای هر سند، اصطلاحات موجود در آن را فهرست میکند. نمایه معکوس این نگاشت را برعکس میکند تا برای هر اصطلاح، اسنادی را که حاوی آن هستند، فهرست کند. این وارونگی دقیقاً همان چیزی است که جستجوی مبتنی بر اصطلاح را سریع میکند.

نمایه موقعیتی برای چه کاری استفاده میشود؟

یک نمایه موقعیتی، موقعیتهایی را که هر اصطلاح در هر سند در آن رخ میدهد، ذخیره میکند. این به سیستم امکان میدهد به جستجوهای عبارتی و جستجوهای مجاورتی پاسخ دهد، جایی که ترتیب یا نزدیکی اصطلاحات اهمیت دارد، نه فقط اینکه آیا اصطلاحات در جایی از سند ظاهر میشوند.

نمایه‌های معکوس

نمایه معکوس هر عبارت در یک مجموعه را به فهرستی از اسناد حاوی آن عبارت نگاشت می‌کند و به یک سیستم جستجو امکان می‌دهد بدون اسکن کردن هر سند، اسناد منطبق را پیدا کند.

یافتن موضوع با PaperMindبه‌زودیFind papers & topics

Tools & resources

دریافت اسلایدها

Learn & explore

ویدیوبه‌زودی

Definition

نمایه معکوس یک ساختار داده است که شامل یک فرهنگ لغت از اصطلاحات نمایه‌شده است که هر یک به یک فهرست پُستینگ اشاره می‌کند که اسناد حاوی آن اصطلاح را فهرست می‌کند، اغلب با فراوانی‌ها و موقعیت‌های اصطلاح حاشیه‌نویسی شده است، به طوری که بازیابی می‌تواند با تقاطع یا ادغام فهرست‌های پُستینگ انجام شود.

Scope

این موضوع ساختار و نحوه ساخت نمایه معکوس را پوشش می‌دهد: فرهنگ لغت اصطلاحات، فهرست‌های پُستینگ که شناسه‌های سند، فراوانی اصطلاحات و موقعیت‌ها را ثبت می‌کنند، و الگوریتم‌هایی که نمایه‌ها را در مجموعه‌های بزرگ می‌سازند و به‌روزرسانی می‌کنند، از جمله نمایه‌سازی مبتنی بر مرتب‌سازی بلوکی و نمایه‌سازی تک‌گذر در حافظه. این موضوع به اطلاعات موقعیتی برای جستجوهای عبارتی و مهندسی نگهداری نمایه می‌پردازد، در حالی که فشرده‌سازی و استراتژی ارزیابی پرس‌وجو را به موضوعات مرتبط واگذار می‌کند.

Core questions

یک ورودی فرهنگ لغت و فهرست پُستینگ آن شامل چه مواردی است؟
موقعیت‌ها چگونه ذخیره می‌شوند تا از جستجوهای عبارتی و مجاورتی پشتیبانی کنند؟
چگونه یک نمایه معکوس ساخته می‌شود وقتی مجموعه داده برای حافظه بسیار بزرگ است؟
چگونه یک نمایه با اضافه شدن، تغییر یا حذف اسناد به‌روزرسانی می‌شود؟
فهرست‌های پُستینگ چگونه از تقاطع کارآمد برای پرس‌وجوهای عطفی پشتیبانی می‌کنند؟

Key concepts

فرهنگ لغت اصطلاحات
فهرست پُستینگ
شناسه‌های سند
نمایه موقعیتی
ذخیره‌سازی فراوانی اصطلاحات
نمایه‌سازی مبتنی بر مرتب‌سازی بلوکی (BSBI)
نمایه‌سازی تک‌گذر در حافظه (SPIMI)
ادغام و به‌روزرسانی نمایه

Key theories

سازماندهی فرهنگ لغت و پُستینگ‌ها: جداسازی یک فرهنگ لغت اصطلاحات فشرده از فهرست‌های پُستینگ با طول متغیر به سیستم امکان می‌دهد تا یک اصطلاح را به سرعت جستجو کند و سپس فقط اسناد مرتبط را جریان‌دهی کند، که اساس ساختاری تمام بازیابی‌های نمایه معکوس است.
ساخت نمایه مقیاس‌پذیر: روش‌های مبتنی بر دیسک مانند نمایه‌سازی مبتنی بر مرتب‌سازی بلوکی و نمایه‌سازی تک‌گذر در حافظه، فایل‌های معکوس را برای مجموعه‌هایی بسیار بزرگ‌تر از حافظه با انباشت و ادغام نمایه‌های جزئی می‌سازند.

Clinical relevance

نمایه معکوس ساختار داده مرکزی تقریباً تمام سیستم‌های جستجوی متن، از جمله موتورهای جستجوی وب، پلتفرم‌های جستجوی متن‌باز مانند Lucene و مشتقات آن، و جستجوی تمام‌متن پایگاه داده است. طراحی آن تعیین می‌کند که چه نوع پرس‌وجوهایی پشتیبانی می‌شوند و با چه سرعتی و با چه هزینه‌ای می‌توان به آنها پاسخ داد.

History

فایل‌های معکوس در سیستم‌های اولیه بازیابی کتاب‌شناختی استفاده می‌شدند و با رشد مجموعه‌ها به ساختار استاندارد برای جستجوی تمام‌متن تبدیل شدند. تحقیقات در دهه‌های 1990 و 2000، از جمله روش‌های ساخت مقیاس‌پذیر مانند نمایه‌سازی تک‌گذر در حافظه، نمایه‌سازی پیکره‌های در مقیاس وب را عملی کرد و این ساختار اکنون پایه‌ای برای کتابخانه‌های جستجوی متن‌باز پرکاربرد است.

Key figures

Justin Zobel
Alistair Moffat
Steffen Heinz

Seminal works

zobel2006
heinz2003
manning2008

Frequently asked questions

چرا به آن نمایه 'معکوس' می‌گویند؟: یک نمایه عادی (رو به جلو) برای هر سند، اصطلاحات موجود در آن را فهرست می‌کند. نمایه معکوس این نگاشت را برعکس می‌کند تا برای هر اصطلاح، اسنادی را که حاوی آن هستند، فهرست کند. این وارونگی دقیقاً همان چیزی است که جستجوی مبتنی بر اصطلاح را سریع می‌کند.
نمایه موقعیتی برای چه کاری استفاده می‌شود؟: یک نمایه موقعیتی، موقعیت‌هایی را که هر اصطلاح در هر سند در آن رخ می‌دهد، ذخیره می‌کند. این به سیستم امکان می‌دهد به جستجوهای عبارتی و جستجوهای مجاورتی پاسخ دهد، جایی که ترتیب یا نزدیکی اصطلاحات اهمیت دارد، نه فقط اینکه آیا اصطلاحات در جایی از سند ظاهر می‌شوند.