الاسترجاع المتسامح واسترجاع أحرف البدل
يتيح الاسترجاع المتسامح لنظام البحث مطابقة الاستعلامات على الرغم من اختلاف التهجئة وأحرف البدل والاختلافات الصوتية، بحيث يظل المستخدمون يعثرون على المستندات ذات الصلة عندما لا تتطابق الاستعلامات والنصوص تمامًا.
Definition
يشمل الاسترجاع المتسامح تقنيات على مستوى القاموس تطابق مصطلحات الاستعلام مع المصطلحات المفهرسة على الرغم من الإدخال غير المكتمل أو الخاطئ إملائيًا أو المتغير صوتيًا، بما في ذلك توسيع أحرف البدل، وتصحيح التهجئة القائم على مسافة التحرير، والترميز الصوتي.
Scope
يغطي هذا الموضوع التقنيات التي تخفف من المطابقة الدقيقة للمصطلحات على مستوى القاموس: معالجة استعلامات أحرف البدل باستخدام فهارس التبديل (permuterm) وفهارس الكي-جرام (k-gram)، وتصحيح التهجئة عن طريق مسافة التحرير (edit distance) والسياق، والمطابقة الصوتية مثل ساوندكس (Soundex). ويتناول كيفية تعزيز قاموس المصطلحات لدعم عمليات البحث التقريبية هذه وكيفية إنشاء المصطلحات المرشحة وترتيبها، وهو يختلف عن المطابقة الدلالية التي تتناول المعنى بدلاً من الشكل السطحي.
Core questions
- كيف يتم تقييم استعلامات أحرف البدل مثل أنماط البادئة واللاحقة والوسطى مقابل القاموس؟
- كيف تدعم فهارس التبديل (permuterm) وفهارس الكي-جرام (k-gram) عمليات البحث عن أحرف البدل؟
- كيف يتم العثور على أقرب مصطلح صحيح إملائيًا لمصطلح استعلام خاطئ إملائيًا؟
- كيف تحدد مسافة التحرير (ليفنشتين) الفرق بين سلسلتين؟
- كيف تجمع المطابقة الصوتية مثل ساوندكس (Soundex) المصطلحات التي تبدو متشابهة؟
Key concepts
- استعلام حرف البدل
- فهرس التبديل (permuterm index)
- فهرس الكي-جرام (k-gram index)
- مسافة التحرير (ليفنشتين)
- تصحيح التهجئة
- المطابقة الصوتية (ساوندكس)
- مطابقة السلاسل التقريبية
- توليد المصطلحات المرشحة
Key theories
- فهرسة أحرف البدل باستخدام فهارس التبديل (permuterm) والكي-جرام (k-gram)
- يتيح تدوير المصطلحات بحيث يقع حرف البدل دائمًا في النهاية (permuterm) أو فهرسة المصطلحات بواسطة كي-جرامات الأحرف الخاصة بها للنظام تحويل نمط حرف البدل إلى عمليات بحث قاموسية عادية تسترجع المصطلحات المرشحة.
- تصحيح التهجئة بمسافة التحرير
- يوفر الحد الأدنى لعدد عمليات الإدراج والحذف والاستبدال ذات الحرف الواحد اللازمة لتحويل سلسلة إلى أخرى (مسافة التحرير) مقياسًا مبدئيًا لاقتراح بدائل صحيحة إملائيًا لمصطلح الاستعلام، وغالبًا ما يتم دمج ذلك مع تكرار المصطلح والسياق.
Clinical relevance
يدعم الاسترجاع المتسامح تسهيلات البحث اليومية: اقتراحات التهجئة "هل تقصد"، والإكمال التلقائي والبحث بالبادئة، والمطابقة المتسامحة للأسماء ومصطلحات المنتجات. إنه يحسن بشكل كبير الاستدعاء وتجربة المستخدم عندما تحتوي الاستعلامات على أخطاء مطبعية أو عندما لا يعرف المستخدمون التهجئة الدقيقة.
History
للمطابقة التقريبية وتصحيح التهجئة تاريخ طويل في الحوسبة، حيث يعود تاريخ ساوندكس (Soundex) إلى فهرسة السجلات في أوائل القرن العشرين. وقد عزز مسح كوكيتش (Kukich) عام 1992 تقنيات التصحيح التلقائي للتهجئة، وقام مسح نافارو (Navarro) عام 2001 بتنظيم مطابقة السلاسل التقريبية. أصبحت هذه الأساليب مكونات قياسية في قواميس البحث مع جعل البحث عبر الويب التعامل المتسامح مع الاستعلامات أمرًا ضروريًا.
Key figures
- Karen Kukich
- Gonzalo Navarro
Related topics
Seminal works
- manning2008
- kukich1992
- navarro2001
Frequently asked questions
- كيف يتعامل محرك البحث مع حرف بدل مثل 'comput*'؟
- يستخدم بنية قاموس مساعدة، مثل فهرس التبديل (permuterm) أو فهرس الكي-جرام (k-gram)، للعثور على جميع المصطلحات التي تتطابق مع النمط (computer, computing, computation, وما إلى ذلك)، ثم يقيم الاستعلام الأصلي كما لو كانت تلك المصطلحات قد أُدرجت صراحةً.
- ما هي مسافة التحرير ولماذا تستخدم لتصحيح التهجئة؟
- تحسب مسافة التحرير الحد الأدنى من عمليات الإدراج والحذف والاستبدال ذات الحرف الواحد اللازمة لتحويل كلمة إلى أخرى. تشير مسافة التحرير الصغيرة بين مصطلح استعلام خاطئ إملائيًا ومصطلح قاموسي إلى أن المصطلح القاموسي هو تصحيح محتمل مقصود.