ScholarGate
دستیار

بازیابی با تحمل خطا و با حروف عام (Wildcard)

بازیابی با تحمل خطا به یک سیستم جستجو اجازه می‌دهد تا با وجود تغییرات املایی، حروف عام (wildcard) و تفاوت‌های آوایی، پرس‌وجوها را مطابقت دهد، به طوری که کاربران همچنان اسناد مرتبط را پیدا کنند، حتی زمانی که پرس‌وجو و متن دقیقاً مطابقت ندارند.

یافتن موضوع با PaperMindبه‌زودیFind papers & topics
Tools & resources
دریافت اسلایدها
Learn & explore
ویدیوبه‌زودی

Definition

بازیابی با تحمل خطا شامل تکنیک‌های سطح فرهنگ لغت است که اصطلاحات پرس‌وجو را با اصطلاحات نمایه‌شده مطابقت می‌دهد، با وجود ورودی ناقص، غلط املایی یا دارای تغییرات آوایی، از جمله گسترش حروف عام، تصحیح املایی مبتنی بر فاصله ویرایش، و کدگذاری آوایی.

Scope

این موضوع تکنیک‌هایی را پوشش می‌دهد که تطابق دقیق اصطلاحات را در سطح فرهنگ لغت تسهیل می‌کنند: پردازش پرس‌وجوهای حروف عام با استفاده از نمایه‌های پرموترم (permuterm) و k-گرم، تصحیح املایی با فاصله ویرایش (edit distance) و بافتار، و تطابق آوایی مانند Soundex. این بخش به چگونگی تقویت فرهنگ لغت اصطلاحات برای پشتیبانی از این جستجوهای تقریبی و چگونگی تولید و رتبه‌بندی اصطلاحات کاندید می‌پردازد، که با تطابق معنایی، که به معنا به جای شکل ظاهری می‌پردازد، متفاوت است.

Core questions

  • پرس‌وجوهای حروف عام مانند الگوهای پیشوندی، پسوندی و میانی چگونه در برابر فرهنگ لغت ارزیابی می‌شوند؟
  • نمایه‌های پرموترم و k-گرم چگونه از جستجوهای حروف عام پشتیبانی می‌کنند؟
  • نزدیک‌ترین اصطلاح با املای صحیح برای یک اصطلاح پرس‌وجوی غلط املایی چگونه پیدا می‌شود؟
  • فاصله ویرایش (لون‌اشتاین) چگونه تفاوت بین دو رشته را کمی‌سازی می‌کند؟
  • تطابق آوایی مانند Soundex چگونه اصطلاحاتی را که شبیه به هم صدا می‌دهند، گروه‌بندی می‌کند؟

Key concepts

  • پرس‌وجوی حروف عام
  • نمایه پرموترم
  • نمایه k-گرم
  • فاصله ویرایش (لون‌اشتاین)
  • تصحیح املایی
  • تطابق آوایی (Soundex)
  • تطابق رشته‌ای تقریبی
  • تولید اصطلاح کاندید

Key theories

نمایه‌سازی حروف عام با نمایه‌های پرموترم و k-گرم
چرخاندن اصطلاحات به گونه‌ای که یک حرف عام همیشه در انتها قرار گیرد (پرموترم) یا نمایه‌سازی اصطلاحات بر اساس k-گرم‌های کاراکتری آنها، به سیستم اجازه می‌دهد تا یک الگوی حروف عام را به جستجوهای فرهنگ لغت معمولی تبدیل کند که اصطلاحات کاندید را بازیابی می‌کنند.
تصحیح املایی با فاصله ویرایش
حداقل تعداد درج، حذف و جایگزینی تک‌کاراکتری مورد نیاز برای تبدیل یک رشته به رشته دیگر (فاصله ویرایش)، معیاری اصولی برای پیشنهاد جایگزین‌های با املای صحیح برای یک اصطلاح پرس‌وجو فراهم می‌کند، که اغلب با فراوانی اصطلاح و بافتار ترکیب می‌شود.

Clinical relevance

بازیابی با تحمل خطا، امکانات جستجوی روزمره را فراهم می‌کند: پیشنهادهای املایی «آیا منظورتان این بود؟»، تکمیل خودکار و جستجوی پیشوندی، و تطابق با اغماض نام‌ها و اصطلاحات محصول. این روش به طور قابل توجهی فراخوانی (recall) و تجربه کاربری را بهبود می‌بخشد، زمانی که پرس‌وجوها حاوی اشتباهات تایپی هستند یا زمانی که کاربران املای دقیق را نمی‌دانند.

History

تطابق تقریبی و تصحیح املایی سابقه طولانی در محاسبات دارند، به طوری که Soundex به اوایل قرن بیستم و نمایه‌سازی سوابق بازمی‌گردد. بررسی کوکیچ در سال ۱۹۹۲ تکنیک‌های تصحیح املایی خودکار را یکپارچه کرد، و بررسی ناوارو در سال ۲۰۰۱ تطابق رشته‌ای تقریبی را سیستماتیک نمود. این روش‌ها به اجزای استاندارد فرهنگ لغت‌های جستجو تبدیل شدند، زیرا جستجوی وب، مدیریت پرس‌وجوهای با اغماض را ضروری ساخت.

Key figures

  • Karen Kukich
  • Gonzalo Navarro

Related topics

Seminal works

  • manning2008
  • kukich1992
  • navarro2001

Frequently asked questions

یک موتور جستجو چگونه با یک حرف عام مانند 'comput*' برخورد می‌کند؟
از یک ساختار فرهنگ لغت کمکی، مانند نمایه پرموترم یا k-گرم، برای یافتن تمام اصطلاحات مطابق با الگو (مانند computer, computing, computation و غیره) استفاده می‌کند، سپس پرس‌وجوی اصلی را طوری ارزیابی می‌کند که گویی آن اصطلاحات به صراحت فهرست شده بودند.
فاصله ویرایش چیست و چرا برای تصحیح املایی استفاده می‌شود؟
فاصله ویرایش حداقل تعداد درج، حذف و جایگزینی تک‌کاراکتری مورد نیاز برای تبدیل یک کلمه به کلمه دیگر را شمارش می‌کند. فاصله ویرایش کوچک بین یک اصطلاح پرس‌وجوی غلط املایی و یک اصطلاح فرهنگ لغت نشان می‌دهد که اصطلاح فرهنگ لغت یک تصحیح احتمالی و مورد نظر است.

Methods for this concept

Related concepts