सहिष्णु और वाइल्डकार्ड पुनर्प्राप्ति
सहिष्णु पुनर्प्राप्ति एक खोज प्रणाली को वर्तनी भिन्नता, वाइल्डकार्ड और ध्वन्यात्मक अंतरों के बावजूद प्रश्नों का मिलान करने देती है, ताकि उपयोगकर्ता तब भी प्रासंगिक दस्तावेज़ पा सकें जब प्रश्न और पाठ ठीक से मेल न खाते हों।
Definition
सहिष्णु पुनर्प्राप्ति में शब्दकोश-स्तर की तकनीकें शामिल हैं जो अपूर्ण, गलत वर्तनी वाले, या ध्वन्यात्मक रूप से भिन्न इनपुट के बावजूद क्वेरी शब्दों को अनुक्रमित शब्दों से मिलाती हैं, जिसमें वाइल्डकार्ड विस्तार, संपादन-दूरी-आधारित वर्तनी सुधार और ध्वन्यात्मक एन्कोडिंग शामिल हैं।
Scope
यह विषय उन तकनीकों को शामिल करता है जो शब्दकोश स्तर पर सटीक शब्द मिलान को शिथिल करती हैं: परमुटर्म और के-ग्राम सूचकांकों का उपयोग करके वाइल्डकार्ड क्वेरी प्रसंस्करण, संपादन दूरी और संदर्भ द्वारा वर्तनी सुधार, और साउंडेक्स जैसे ध्वन्यात्मक मिलान। यह बताता है कि इन अनुमानित लुकअप का समर्थन करने के लिए शब्दकोश को कैसे बढ़ाया जाता है और उम्मीदवार शब्दों को कैसे उत्पन्न और रैंक किया जाता है, जो अर्थ संबंधी मिलान से अलग है, जो सतह के रूप के बजाय अर्थ को संबोधित करता है।
Core questions
- उपसर्ग, प्रत्यय और इन्फिक्स पैटर्न जैसी वाइल्डकार्ड प्रश्नों का शब्दकोश के विरुद्ध मूल्यांकन कैसे किया जाता है?
- परमुटर्म और के-ग्राम सूचकांक वाइल्डकार्ड लुकअप का समर्थन कैसे करते हैं?
- गलत वर्तनी वाले क्वेरी शब्द के लिए सबसे निकटतम सही वर्तनी वाला शब्द कैसे पाया जाता है?
- संपादन (लेवेनस्टीन) दूरी दो स्ट्रिंग के बीच के अंतर को कैसे निर्धारित करती है?
- साउंडेक्स जैसे ध्वन्यात्मक मिलान समान ध्वनि वाले शब्दों को कैसे समूहित करते हैं?
Key concepts
- वाइल्डकार्ड क्वेरी
- परमुटर्म सूचकांक
- के-ग्राम सूचकांक
- संपादन (लेवेनस्टीन) दूरी
- वर्तनी सुधार
- ध्वन्यात्मक मिलान (साउंडेक्स)
- अनुमानित स्ट्रिंग मिलान
- उम्मीदवार शब्द निर्माण
Key theories
- परमुटर्म और के-ग्राम सूचकांकों के साथ वाइल्डकार्ड अनुक्रमण
- शब्दों को घुमाना ताकि एक वाइल्डकार्ड हमेशा अंत में आए (परमुटर्म) या उनके वर्ण के-ग्राम द्वारा शब्दों को अनुक्रमित करना प्रणाली को एक वाइल्डकार्ड पैटर्न को सामान्य शब्दकोश लुकअप में बदलने देता है जो उम्मीदवार शब्दों को पुनः प्राप्त करता है।
- संपादन-दूरी वर्तनी सुधार
- एक स्ट्रिंग को दूसरे में बदलने के लिए आवश्यक एकल-वर्ण प्रविष्टियों, विलोपन और प्रतिस्थापनों की न्यूनतम संख्या (संपादन दूरी) एक क्वेरी शब्द के लिए सही वर्तनी वाले विकल्पों का प्रस्ताव करने के लिए एक सैद्धांतिक माप प्रदान करती है, जिसे अक्सर शब्द आवृत्ति और संदर्भ के साथ जोड़ा जाता है।
Clinical relevance
सहिष्णु पुनर्प्राप्ति रोजमर्रा की खोज सुविधाओं को शक्ति प्रदान करती है: 'क्या आपका मतलब यह था' वर्तनी सुझाव, स्वतः पूर्ण और उपसर्ग खोज, और नामों और उत्पाद शब्दों का क्षमाशील मिलान। जब प्रश्नों में टाइपो होते हैं या जब उपयोगकर्ताओं को सटीक वर्तनी नहीं पता होती है तो यह पुनर्प्राप्ति और उपयोगकर्ता अनुभव में काफी सुधार करता है।
History
कंप्यूटिंग में अनुमानित मिलान और वर्तनी सुधार का लंबा इतिहास रहा है, जिसमें साउंडेक्स बीसवीं सदी की शुरुआत के रिकॉर्ड अनुक्रमण से जुड़ा है। कुकिच के 1992 के सर्वेक्षण ने स्वचालित वर्तनी-सुधार तकनीकों को समेकित किया, और नवारो के 2001 के सर्वेक्षण ने अनुमानित स्ट्रिंग मिलान को व्यवस्थित किया। वेब खोज ने क्षमाशील क्वेरी हैंडलिंग को आवश्यक बना दिया, जिससे ये विधियाँ खोज शब्दकोशों के मानक घटक बन गईं।
Key figures
- Karen Kukich
- Gonzalo Navarro
Related topics
Seminal works
- manning2008
- kukich1992
- navarro2001
Frequently asked questions
- एक खोज इंजन 'comput*' जैसे वाइल्डकार्ड को कैसे संभालता है?
- यह एक सहायक शब्दकोश संरचना का उपयोग करता है, जैसे कि परमुटर्म या के-ग्राम सूचकांक, पैटर्न से मेल खाने वाले सभी शब्दों (कंप्यूटर, कंप्यूटिंग, गणना, आदि) को खोजने के लिए, फिर मूल क्वेरी का मूल्यांकन करता है जैसे कि उन शब्दों को स्पष्ट रूप से सूचीबद्ध किया गया हो।
- संपादन दूरी क्या है और इसका उपयोग वर्तनी सुधार के लिए क्यों किया जाता है?
- संपादन दूरी एक शब्द को दूसरे में बदलने के लिए आवश्यक न्यूनतम एकल-वर्ण प्रविष्टियों, विलोपन और प्रतिस्थापनों की गणना करती है। एक गलत वर्तनी वाले क्वेरी शब्द और एक शब्दकोश शब्द के बीच एक छोटी संपादन दूरी बताती है कि शब्दकोश शब्द एक संभावित इच्छित सुधार है।