ScholarGate
सहायक

सहिष्णु और वाइल्डकार्ड पुनर्प्राप्ति

सहिष्णु पुनर्प्राप्ति एक खोज प्रणाली को वर्तनी भिन्नता, वाइल्डकार्ड और ध्वन्यात्मक अंतरों के बावजूद प्रश्नों का मिलान करने देती है, ताकि उपयोगकर्ता तब भी प्रासंगिक दस्तावेज़ पा सकें जब प्रश्न और पाठ ठीक से मेल न खाते हों।

PaperMind से विषय खोजेंजल्द हीFind papers & topics
Tools & resources
स्लाइड डाउनलोड करें
Learn & explore
वीडियोजल्द ही

Definition

सहिष्णु पुनर्प्राप्ति में शब्दकोश-स्तर की तकनीकें शामिल हैं जो अपूर्ण, गलत वर्तनी वाले, या ध्वन्यात्मक रूप से भिन्न इनपुट के बावजूद क्वेरी शब्दों को अनुक्रमित शब्दों से मिलाती हैं, जिसमें वाइल्डकार्ड विस्तार, संपादन-दूरी-आधारित वर्तनी सुधार और ध्वन्यात्मक एन्कोडिंग शामिल हैं।

Scope

यह विषय उन तकनीकों को शामिल करता है जो शब्दकोश स्तर पर सटीक शब्द मिलान को शिथिल करती हैं: परमुटर्म और के-ग्राम सूचकांकों का उपयोग करके वाइल्डकार्ड क्वेरी प्रसंस्करण, संपादन दूरी और संदर्भ द्वारा वर्तनी सुधार, और साउंडेक्स जैसे ध्वन्यात्मक मिलान। यह बताता है कि इन अनुमानित लुकअप का समर्थन करने के लिए शब्दकोश को कैसे बढ़ाया जाता है और उम्मीदवार शब्दों को कैसे उत्पन्न और रैंक किया जाता है, जो अर्थ संबंधी मिलान से अलग है, जो सतह के रूप के बजाय अर्थ को संबोधित करता है।

Core questions

  • उपसर्ग, प्रत्यय और इन्फिक्स पैटर्न जैसी वाइल्डकार्ड प्रश्नों का शब्दकोश के विरुद्ध मूल्यांकन कैसे किया जाता है?
  • परमुटर्म और के-ग्राम सूचकांक वाइल्डकार्ड लुकअप का समर्थन कैसे करते हैं?
  • गलत वर्तनी वाले क्वेरी शब्द के लिए सबसे निकटतम सही वर्तनी वाला शब्द कैसे पाया जाता है?
  • संपादन (लेवेनस्टीन) दूरी दो स्ट्रिंग के बीच के अंतर को कैसे निर्धारित करती है?
  • साउंडेक्स जैसे ध्वन्यात्मक मिलान समान ध्वनि वाले शब्दों को कैसे समूहित करते हैं?

Key concepts

  • वाइल्डकार्ड क्वेरी
  • परमुटर्म सूचकांक
  • के-ग्राम सूचकांक
  • संपादन (लेवेनस्टीन) दूरी
  • वर्तनी सुधार
  • ध्वन्यात्मक मिलान (साउंडेक्स)
  • अनुमानित स्ट्रिंग मिलान
  • उम्मीदवार शब्द निर्माण

Key theories

परमुटर्म और के-ग्राम सूचकांकों के साथ वाइल्डकार्ड अनुक्रमण
शब्दों को घुमाना ताकि एक वाइल्डकार्ड हमेशा अंत में आए (परमुटर्म) या उनके वर्ण के-ग्राम द्वारा शब्दों को अनुक्रमित करना प्रणाली को एक वाइल्डकार्ड पैटर्न को सामान्य शब्दकोश लुकअप में बदलने देता है जो उम्मीदवार शब्दों को पुनः प्राप्त करता है।
संपादन-दूरी वर्तनी सुधार
एक स्ट्रिंग को दूसरे में बदलने के लिए आवश्यक एकल-वर्ण प्रविष्टियों, विलोपन और प्रतिस्थापनों की न्यूनतम संख्या (संपादन दूरी) एक क्वेरी शब्द के लिए सही वर्तनी वाले विकल्पों का प्रस्ताव करने के लिए एक सैद्धांतिक माप प्रदान करती है, जिसे अक्सर शब्द आवृत्ति और संदर्भ के साथ जोड़ा जाता है।

Clinical relevance

सहिष्णु पुनर्प्राप्ति रोजमर्रा की खोज सुविधाओं को शक्ति प्रदान करती है: 'क्या आपका मतलब यह था' वर्तनी सुझाव, स्वतः पूर्ण और उपसर्ग खोज, और नामों और उत्पाद शब्दों का क्षमाशील मिलान। जब प्रश्नों में टाइपो होते हैं या जब उपयोगकर्ताओं को सटीक वर्तनी नहीं पता होती है तो यह पुनर्प्राप्ति और उपयोगकर्ता अनुभव में काफी सुधार करता है।

History

कंप्यूटिंग में अनुमानित मिलान और वर्तनी सुधार का लंबा इतिहास रहा है, जिसमें साउंडेक्स बीसवीं सदी की शुरुआत के रिकॉर्ड अनुक्रमण से जुड़ा है। कुकिच के 1992 के सर्वेक्षण ने स्वचालित वर्तनी-सुधार तकनीकों को समेकित किया, और नवारो के 2001 के सर्वेक्षण ने अनुमानित स्ट्रिंग मिलान को व्यवस्थित किया। वेब खोज ने क्षमाशील क्वेरी हैंडलिंग को आवश्यक बना दिया, जिससे ये विधियाँ खोज शब्दकोशों के मानक घटक बन गईं।

Key figures

  • Karen Kukich
  • Gonzalo Navarro

Related topics

Seminal works

  • manning2008
  • kukich1992
  • navarro2001

Frequently asked questions

एक खोज इंजन 'comput*' जैसे वाइल्डकार्ड को कैसे संभालता है?
यह एक सहायक शब्दकोश संरचना का उपयोग करता है, जैसे कि परमुटर्म या के-ग्राम सूचकांक, पैटर्न से मेल खाने वाले सभी शब्दों (कंप्यूटर, कंप्यूटिंग, गणना, आदि) को खोजने के लिए, फिर मूल क्वेरी का मूल्यांकन करता है जैसे कि उन शब्दों को स्पष्ट रूप से सूचीबद्ध किया गया हो।
संपादन दूरी क्या है और इसका उपयोग वर्तनी सुधार के लिए क्यों किया जाता है?
संपादन दूरी एक शब्द को दूसरे में बदलने के लिए आवश्यक न्यूनतम एकल-वर्ण प्रविष्टियों, विलोपन और प्रतिस्थापनों की गणना करती है। एक गलत वर्तनी वाले क्वेरी शब्द और एक शब्दकोश शब्द के बीच एक छोटी संपादन दूरी बताती है कि शब्दकोश शब्द एक संभावित इच्छित सुधार है।

Methods for this concept

Related concepts