ScholarGate
دستیار

نمایه‌سازی و پردازش پرس‌وجو

نمایه‌سازی و پردازش پرس‌وجو شامل ساختارهای داده و الگوریتم‌هایی است که به یک سیستم جستجو امکان می‌دهد تا به سرعت به پرس‌وجوها در مجموعه‌های بزرگ متنی پاسخ دهد، عمدتاً از طریق فهرست معکوس.

یافتن موضوع با PaperMindبه‌زودیFind papers & topics
Tools & resources
دریافت اسلایدها
Learn & explore
ویدیوبه‌زودی

Definition

نمایه‌سازی عبارت است از ساخت ساختارهای داده، عمدتاً فهرست معکوس که اصطلاحات را به اسناد حاوی آنها نگاشت می‌کند، که از جستجوی کارآمد پشتیبانی می‌کند، در حالی که پردازش پرس‌وجو مجموعه‌ای از الگوریتم‌ها است که این ساختارها را پیمایش می‌کنند تا اسناد مطابق یا بهترین رتبه‌بندی شده برای یک پرس‌وجو را محاسبه کنند.

Scope

این حوزه چگونگی تبدیل مجموعه‌های متنی به ساختارهای قابل جستجو و چگونگی ارزیابی پرس‌وجوها در برابر آنها را پوشش می‌دهد: ساخت فهرست معکوس، تصمیمات مربوط به توکن‌سازی و واژگان اصطلاحات پشت آن، فشرده‌سازی فهرست‌های پُستینگ برای صرفه‌جویی در فضا و افزایش سرعت دسترسی، پردازش کارآمد پرس‌وجوها از جمله بازیابی رتبه‌بندی شده و خاتمه زودهنگام، و تکنیک‌های بازیابی تحمل‌پذیر مانند جستجوی با کاراکترهای عام، تصحیح املایی، و تطبیق آوایی. این حوزه به مهندسی سیستم‌های بازیابی سریع می‌پردازد، که متمایز از مدل‌های بازیابی است که رتبه‌بندی را تعریف می‌کنند و روش‌های ارزیابی که کیفیت را اندازه‌گیری می‌کنند.

Sub-topics

Core questions

  • چگونه یک فهرست معکوس برای یک مجموعه بزرگ و در حال تغییر ساخته و به‌روزرسانی می‌شود؟
  • چگونه می‌توان فهرست‌های پُستینگ را بدون کاهش سرعت ارزیابی پرس‌وجو فشرده کرد؟
  • چگونه پرس‌وجوها به طور کارآمد ارزیابی می‌شوند، به ویژه پرس‌وجوهای رتبه‌بندی شده در میلیون‌ها سند؟
  • چگونه یک سیستم می‌تواند نتایج خوبی را بدون امتیازدهی به هر سند بازیابی کند؟
  • چگونه یک سیستم با غلط‌های املایی، کاراکترهای عام، و تطابق‌های تقریبی کنار می‌آید؟

Key concepts

  • فهرست معکوس
  • فهرست پُستینگ
  • توکن‌سازی و واژگان اصطلاحات
  • ساخت فهرست (BSBI, SPIMI)
  • فشرده‌سازی فهرست
  • ارزیابی سند به سند و اصطلاح به اصطلاح
  • هرس پویا و خاتمه زودهنگام
  • بازیابی تحمل‌پذیر

Key theories

فهرست معکوس به عنوان ساختار داده اصلی
نگاشت هر اصطلاح به یک فهرست پُستینگ از اسناد (و موقعیت‌ها) که در آن ظاهر می‌شود، به بازیابی اجازه می‌دهد تا فقط اسناد حاوی اصطلاحات پرس‌وجو را لمس کند، و آن را به ساختار بنیادی برای جستجوی متن مقیاس‌پذیر تبدیل می‌کند.
موازنه فشرده‌سازی-کارایی
کدگذاری شکاف‌های شناسه‌های سند و فرکانس‌های اصطلاحات با کدهای صحیح فشرده، فهرست را به شدت کوچک می‌کند و با کاهش ورودی/خروجی و بهبود رفتار حافظه نهان، می‌تواند سرعت پردازش پرس‌وجو را نیز افزایش دهد.
ارزیابی کارآمد پرس‌وجوی رتبه‌بندی شده
استراتژی‌های سند به سند و اصطلاح به اصطلاح، همراه با تکنیک‌های هرس پویا و خاتمه زودهنگام، به سیستم‌ها اجازه می‌دهند تا نتایج برتر را بدون امتیازدهی کامل به کل مجموعه بازگردانند.

Clinical relevance

فهرست‌های معکوس و پردازش کارآمد پرس‌وجو موتورخانه هر سیستم جستجوی تولیدی هستند، از موتورهای جستجوی وب و پلتفرم‌های جستجوی متن‌باز گرفته تا جستجوی تمام‌متن سازمانی و پایگاه داده. کارایی آنها مستقیماً تأخیر پرس‌وجو، هزینه سخت‌افزار، و مقیاس مجموعه‌هایی را که می‌توان به صورت تعاملی جستجو کرد، تعیین می‌کند.

History

فایل‌های معکوس از اولین سیستم‌های اطلاعاتی برای جستجوی متن استفاده شده‌اند، اما نظریه مدرن ساختار فهرست، فشرده‌سازی، و ارزیابی کارآمد در دهه 1990 تثبیت شد، به ویژه با کار «مدیریت گیگابایت‌ها» (Managing Gigabytes) توسط ویتن، موفات، و بل. بررسی سال 2006 زوبل و موفات دو دهه تحقیق در مورد فهرست معکوس را در حالی که جستجوی در مقیاس وب کارایی را در اولویت قرار داده بود، ترکیب کرد.

Key figures

  • Justin Zobel
  • Alistair Moffat
  • Ian H. Witten
  • W. Bruce Croft

Related topics

Seminal works

  • zobel2006
  • wittenmgb1999
  • manning2008

Frequently asked questions

چرا فهرست معکوس به اسکن اسناد ترجیح داده می‌شود؟
اسکن هر سند برای هر پرس‌وجو در مقیاس بزرگ بسیار کند است. فهرست معکوس به سیستم اجازه می‌دهد تا مستقیماً به مجموعه کوچکی از اسناد که حاوی اصطلاحات پرس‌وجو هستند، برود، بنابراین زمان پرس‌وجو به فهرست‌های پُستینگ درگیر بستگی دارد تا اندازه کل مجموعه.
آیا فشرده‌سازی فهرست باعث کاهش سرعت جستجو می‌شود؟
معمولاً برعکس است. یک فهرست کوچکتر ترافیک دیسک و حافظه را کاهش می‌دهد، و کدهای صحیح مدرن بسیار سریع از حالت فشرده خارج می‌شوند، بنابراین زمان صرفه‌جویی شده در ورودی/خروجی و بهبود رفتار حافظه نهان معمولاً از هزینه رمزگشایی بیشتر است و فهرست‌های فشرده را هم کوچکتر و هم سریع‌تر می‌کند.

Methods for this concept

Related concepts