نمایهسازی و پردازش پرسوجو
نمایهسازی و پردازش پرسوجو شامل ساختارهای داده و الگوریتمهایی است که به یک سیستم جستجو امکان میدهد تا به سرعت به پرسوجوها در مجموعههای بزرگ متنی پاسخ دهد، عمدتاً از طریق فهرست معکوس.
Definition
نمایهسازی عبارت است از ساخت ساختارهای داده، عمدتاً فهرست معکوس که اصطلاحات را به اسناد حاوی آنها نگاشت میکند، که از جستجوی کارآمد پشتیبانی میکند، در حالی که پردازش پرسوجو مجموعهای از الگوریتمها است که این ساختارها را پیمایش میکنند تا اسناد مطابق یا بهترین رتبهبندی شده برای یک پرسوجو را محاسبه کنند.
Scope
این حوزه چگونگی تبدیل مجموعههای متنی به ساختارهای قابل جستجو و چگونگی ارزیابی پرسوجوها در برابر آنها را پوشش میدهد: ساخت فهرست معکوس، تصمیمات مربوط به توکنسازی و واژگان اصطلاحات پشت آن، فشردهسازی فهرستهای پُستینگ برای صرفهجویی در فضا و افزایش سرعت دسترسی، پردازش کارآمد پرسوجوها از جمله بازیابی رتبهبندی شده و خاتمه زودهنگام، و تکنیکهای بازیابی تحملپذیر مانند جستجوی با کاراکترهای عام، تصحیح املایی، و تطبیق آوایی. این حوزه به مهندسی سیستمهای بازیابی سریع میپردازد، که متمایز از مدلهای بازیابی است که رتبهبندی را تعریف میکنند و روشهای ارزیابی که کیفیت را اندازهگیری میکنند.
Sub-topics
Core questions
- چگونه یک فهرست معکوس برای یک مجموعه بزرگ و در حال تغییر ساخته و بهروزرسانی میشود؟
- چگونه میتوان فهرستهای پُستینگ را بدون کاهش سرعت ارزیابی پرسوجو فشرده کرد؟
- چگونه پرسوجوها به طور کارآمد ارزیابی میشوند، به ویژه پرسوجوهای رتبهبندی شده در میلیونها سند؟
- چگونه یک سیستم میتواند نتایج خوبی را بدون امتیازدهی به هر سند بازیابی کند؟
- چگونه یک سیستم با غلطهای املایی، کاراکترهای عام، و تطابقهای تقریبی کنار میآید؟
Key concepts
- فهرست معکوس
- فهرست پُستینگ
- توکنسازی و واژگان اصطلاحات
- ساخت فهرست (BSBI, SPIMI)
- فشردهسازی فهرست
- ارزیابی سند به سند و اصطلاح به اصطلاح
- هرس پویا و خاتمه زودهنگام
- بازیابی تحملپذیر
Key theories
- فهرست معکوس به عنوان ساختار داده اصلی
- نگاشت هر اصطلاح به یک فهرست پُستینگ از اسناد (و موقعیتها) که در آن ظاهر میشود، به بازیابی اجازه میدهد تا فقط اسناد حاوی اصطلاحات پرسوجو را لمس کند، و آن را به ساختار بنیادی برای جستجوی متن مقیاسپذیر تبدیل میکند.
- موازنه فشردهسازی-کارایی
- کدگذاری شکافهای شناسههای سند و فرکانسهای اصطلاحات با کدهای صحیح فشرده، فهرست را به شدت کوچک میکند و با کاهش ورودی/خروجی و بهبود رفتار حافظه نهان، میتواند سرعت پردازش پرسوجو را نیز افزایش دهد.
- ارزیابی کارآمد پرسوجوی رتبهبندی شده
- استراتژیهای سند به سند و اصطلاح به اصطلاح، همراه با تکنیکهای هرس پویا و خاتمه زودهنگام، به سیستمها اجازه میدهند تا نتایج برتر را بدون امتیازدهی کامل به کل مجموعه بازگردانند.
Clinical relevance
فهرستهای معکوس و پردازش کارآمد پرسوجو موتورخانه هر سیستم جستجوی تولیدی هستند، از موتورهای جستجوی وب و پلتفرمهای جستجوی متنباز گرفته تا جستجوی تماممتن سازمانی و پایگاه داده. کارایی آنها مستقیماً تأخیر پرسوجو، هزینه سختافزار، و مقیاس مجموعههایی را که میتوان به صورت تعاملی جستجو کرد، تعیین میکند.
History
فایلهای معکوس از اولین سیستمهای اطلاعاتی برای جستجوی متن استفاده شدهاند، اما نظریه مدرن ساختار فهرست، فشردهسازی، و ارزیابی کارآمد در دهه 1990 تثبیت شد، به ویژه با کار «مدیریت گیگابایتها» (Managing Gigabytes) توسط ویتن، موفات، و بل. بررسی سال 2006 زوبل و موفات دو دهه تحقیق در مورد فهرست معکوس را در حالی که جستجوی در مقیاس وب کارایی را در اولویت قرار داده بود، ترکیب کرد.
Key figures
- Justin Zobel
- Alistair Moffat
- Ian H. Witten
- W. Bruce Croft
Related topics
Seminal works
- zobel2006
- wittenmgb1999
- manning2008
Frequently asked questions
- چرا فهرست معکوس به اسکن اسناد ترجیح داده میشود؟
- اسکن هر سند برای هر پرسوجو در مقیاس بزرگ بسیار کند است. فهرست معکوس به سیستم اجازه میدهد تا مستقیماً به مجموعه کوچکی از اسناد که حاوی اصطلاحات پرسوجو هستند، برود، بنابراین زمان پرسوجو به فهرستهای پُستینگ درگیر بستگی دارد تا اندازه کل مجموعه.
- آیا فشردهسازی فهرست باعث کاهش سرعت جستجو میشود؟
- معمولاً برعکس است. یک فهرست کوچکتر ترافیک دیسک و حافظه را کاهش میدهد، و کدهای صحیح مدرن بسیار سریع از حالت فشرده خارج میشوند، بنابراین زمان صرفهجویی شده در ورودی/خروجی و بهبود رفتار حافظه نهان معمولاً از هزینه رمزگشایی بیشتر است و فهرستهای فشرده را هم کوچکتر و هم سریعتر میکند.