بازیابی با تحمل خطا و با حروف عام (Wildcard)
بازیابی با تحمل خطا به یک سیستم جستجو اجازه میدهد تا با وجود تغییرات املایی، حروف عام (wildcard) و تفاوتهای آوایی، پرسوجوها را مطابقت دهد، به طوری که کاربران همچنان اسناد مرتبط را پیدا کنند، حتی زمانی که پرسوجو و متن دقیقاً مطابقت ندارند.
Definition
بازیابی با تحمل خطا شامل تکنیکهای سطح فرهنگ لغت است که اصطلاحات پرسوجو را با اصطلاحات نمایهشده مطابقت میدهد، با وجود ورودی ناقص، غلط املایی یا دارای تغییرات آوایی، از جمله گسترش حروف عام، تصحیح املایی مبتنی بر فاصله ویرایش، و کدگذاری آوایی.
Scope
این موضوع تکنیکهایی را پوشش میدهد که تطابق دقیق اصطلاحات را در سطح فرهنگ لغت تسهیل میکنند: پردازش پرسوجوهای حروف عام با استفاده از نمایههای پرموترم (permuterm) و k-گرم، تصحیح املایی با فاصله ویرایش (edit distance) و بافتار، و تطابق آوایی مانند Soundex. این بخش به چگونگی تقویت فرهنگ لغت اصطلاحات برای پشتیبانی از این جستجوهای تقریبی و چگونگی تولید و رتبهبندی اصطلاحات کاندید میپردازد، که با تطابق معنایی، که به معنا به جای شکل ظاهری میپردازد، متفاوت است.
Core questions
- پرسوجوهای حروف عام مانند الگوهای پیشوندی، پسوندی و میانی چگونه در برابر فرهنگ لغت ارزیابی میشوند؟
- نمایههای پرموترم و k-گرم چگونه از جستجوهای حروف عام پشتیبانی میکنند؟
- نزدیکترین اصطلاح با املای صحیح برای یک اصطلاح پرسوجوی غلط املایی چگونه پیدا میشود؟
- فاصله ویرایش (لوناشتاین) چگونه تفاوت بین دو رشته را کمیسازی میکند؟
- تطابق آوایی مانند Soundex چگونه اصطلاحاتی را که شبیه به هم صدا میدهند، گروهبندی میکند؟
Key concepts
- پرسوجوی حروف عام
- نمایه پرموترم
- نمایه k-گرم
- فاصله ویرایش (لوناشتاین)
- تصحیح املایی
- تطابق آوایی (Soundex)
- تطابق رشتهای تقریبی
- تولید اصطلاح کاندید
Key theories
- نمایهسازی حروف عام با نمایههای پرموترم و k-گرم
- چرخاندن اصطلاحات به گونهای که یک حرف عام همیشه در انتها قرار گیرد (پرموترم) یا نمایهسازی اصطلاحات بر اساس k-گرمهای کاراکتری آنها، به سیستم اجازه میدهد تا یک الگوی حروف عام را به جستجوهای فرهنگ لغت معمولی تبدیل کند که اصطلاحات کاندید را بازیابی میکنند.
- تصحیح املایی با فاصله ویرایش
- حداقل تعداد درج، حذف و جایگزینی تککاراکتری مورد نیاز برای تبدیل یک رشته به رشته دیگر (فاصله ویرایش)، معیاری اصولی برای پیشنهاد جایگزینهای با املای صحیح برای یک اصطلاح پرسوجو فراهم میکند، که اغلب با فراوانی اصطلاح و بافتار ترکیب میشود.
Clinical relevance
بازیابی با تحمل خطا، امکانات جستجوی روزمره را فراهم میکند: پیشنهادهای املایی «آیا منظورتان این بود؟»، تکمیل خودکار و جستجوی پیشوندی، و تطابق با اغماض نامها و اصطلاحات محصول. این روش به طور قابل توجهی فراخوانی (recall) و تجربه کاربری را بهبود میبخشد، زمانی که پرسوجوها حاوی اشتباهات تایپی هستند یا زمانی که کاربران املای دقیق را نمیدانند.
History
تطابق تقریبی و تصحیح املایی سابقه طولانی در محاسبات دارند، به طوری که Soundex به اوایل قرن بیستم و نمایهسازی سوابق بازمیگردد. بررسی کوکیچ در سال ۱۹۹۲ تکنیکهای تصحیح املایی خودکار را یکپارچه کرد، و بررسی ناوارو در سال ۲۰۰۱ تطابق رشتهای تقریبی را سیستماتیک نمود. این روشها به اجزای استاندارد فرهنگ لغتهای جستجو تبدیل شدند، زیرا جستجوی وب، مدیریت پرسوجوهای با اغماض را ضروری ساخت.
Key figures
- Karen Kukich
- Gonzalo Navarro
Related topics
Seminal works
- manning2008
- kukich1992
- navarro2001
Frequently asked questions
- یک موتور جستجو چگونه با یک حرف عام مانند 'comput*' برخورد میکند؟
- از یک ساختار فرهنگ لغت کمکی، مانند نمایه پرموترم یا k-گرم، برای یافتن تمام اصطلاحات مطابق با الگو (مانند computer, computing, computation و غیره) استفاده میکند، سپس پرسوجوی اصلی را طوری ارزیابی میکند که گویی آن اصطلاحات به صراحت فهرست شده بودند.
- فاصله ویرایش چیست و چرا برای تصحیح املایی استفاده میشود؟
- فاصله ویرایش حداقل تعداد درج، حذف و جایگزینی تککاراکتری مورد نیاز برای تبدیل یک کلمه به کلمه دیگر را شمارش میکند. فاصله ویرایش کوچک بین یک اصطلاح پرسوجوی غلط املایی و یک اصطلاح فرهنگ لغت نشان میدهد که اصطلاح فرهنگ لغت یک تصحیح احتمالی و مورد نظر است.