نمایههای معکوس
نمایه معکوس هر عبارت در یک مجموعه را به فهرستی از اسناد حاوی آن عبارت نگاشت میکند و به یک سیستم جستجو امکان میدهد بدون اسکن کردن هر سند، اسناد منطبق را پیدا کند.
Definition
نمایه معکوس یک ساختار داده است که شامل یک فرهنگ لغت از اصطلاحات نمایهشده است که هر یک به یک فهرست پُستینگ اشاره میکند که اسناد حاوی آن اصطلاح را فهرست میکند، اغلب با فراوانیها و موقعیتهای اصطلاح حاشیهنویسی شده است، به طوری که بازیابی میتواند با تقاطع یا ادغام فهرستهای پُستینگ انجام شود.
Scope
این موضوع ساختار و نحوه ساخت نمایه معکوس را پوشش میدهد: فرهنگ لغت اصطلاحات، فهرستهای پُستینگ که شناسههای سند، فراوانی اصطلاحات و موقعیتها را ثبت میکنند، و الگوریتمهایی که نمایهها را در مجموعههای بزرگ میسازند و بهروزرسانی میکنند، از جمله نمایهسازی مبتنی بر مرتبسازی بلوکی و نمایهسازی تکگذر در حافظه. این موضوع به اطلاعات موقعیتی برای جستجوهای عبارتی و مهندسی نگهداری نمایه میپردازد، در حالی که فشردهسازی و استراتژی ارزیابی پرسوجو را به موضوعات مرتبط واگذار میکند.
Core questions
- یک ورودی فرهنگ لغت و فهرست پُستینگ آن شامل چه مواردی است؟
- موقعیتها چگونه ذخیره میشوند تا از جستجوهای عبارتی و مجاورتی پشتیبانی کنند؟
- چگونه یک نمایه معکوس ساخته میشود وقتی مجموعه داده برای حافظه بسیار بزرگ است؟
- چگونه یک نمایه با اضافه شدن، تغییر یا حذف اسناد بهروزرسانی میشود؟
- فهرستهای پُستینگ چگونه از تقاطع کارآمد برای پرسوجوهای عطفی پشتیبانی میکنند؟
Key concepts
- فرهنگ لغت اصطلاحات
- فهرست پُستینگ
- شناسههای سند
- نمایه موقعیتی
- ذخیرهسازی فراوانی اصطلاحات
- نمایهسازی مبتنی بر مرتبسازی بلوکی (BSBI)
- نمایهسازی تکگذر در حافظه (SPIMI)
- ادغام و بهروزرسانی نمایه
Key theories
- سازماندهی فرهنگ لغت و پُستینگها
- جداسازی یک فرهنگ لغت اصطلاحات فشرده از فهرستهای پُستینگ با طول متغیر به سیستم امکان میدهد تا یک اصطلاح را به سرعت جستجو کند و سپس فقط اسناد مرتبط را جریاندهی کند، که اساس ساختاری تمام بازیابیهای نمایه معکوس است.
- ساخت نمایه مقیاسپذیر
- روشهای مبتنی بر دیسک مانند نمایهسازی مبتنی بر مرتبسازی بلوکی و نمایهسازی تکگذر در حافظه، فایلهای معکوس را برای مجموعههایی بسیار بزرگتر از حافظه با انباشت و ادغام نمایههای جزئی میسازند.
Clinical relevance
نمایه معکوس ساختار داده مرکزی تقریباً تمام سیستمهای جستجوی متن، از جمله موتورهای جستجوی وب، پلتفرمهای جستجوی متنباز مانند Lucene و مشتقات آن، و جستجوی تماممتن پایگاه داده است. طراحی آن تعیین میکند که چه نوع پرسوجوهایی پشتیبانی میشوند و با چه سرعتی و با چه هزینهای میتوان به آنها پاسخ داد.
History
فایلهای معکوس در سیستمهای اولیه بازیابی کتابشناختی استفاده میشدند و با رشد مجموعهها به ساختار استاندارد برای جستجوی تماممتن تبدیل شدند. تحقیقات در دهههای 1990 و 2000، از جمله روشهای ساخت مقیاسپذیر مانند نمایهسازی تکگذر در حافظه، نمایهسازی پیکرههای در مقیاس وب را عملی کرد و این ساختار اکنون پایهای برای کتابخانههای جستجوی متنباز پرکاربرد است.
Key figures
- Justin Zobel
- Alistair Moffat
- Steffen Heinz
Related topics
Seminal works
- zobel2006
- heinz2003
- manning2008
Frequently asked questions
- چرا به آن نمایه 'معکوس' میگویند؟
- یک نمایه عادی (رو به جلو) برای هر سند، اصطلاحات موجود در آن را فهرست میکند. نمایه معکوس این نگاشت را برعکس میکند تا برای هر اصطلاح، اسنادی را که حاوی آن هستند، فهرست کند. این وارونگی دقیقاً همان چیزی است که جستجوی مبتنی بر اصطلاح را سریع میکند.
- نمایه موقعیتی برای چه کاری استفاده میشود؟
- یک نمایه موقعیتی، موقعیتهایی را که هر اصطلاح در هر سند در آن رخ میدهد، ذخیره میکند. این به سیستم امکان میدهد به جستجوهای عبارتی و جستجوهای مجاورتی پاسخ دهد، جایی که ترتیب یا نزدیکی اصطلاحات اهمیت دارد، نه فقط اینکه آیا اصطلاحات در جایی از سند ظاهر میشوند.