बूलियन और विस्तारित बूलियन पुनर्प्राप्ति
बूलियन पुनर्प्राप्ति दस्तावेज़ों का मिलान उन प्रश्नों से करती है जो AND, OR, और NOT जैसे तार्किक ऑपरेटरों के साथ संयोजित शब्दों से बने होते हैं, और उन दस्तावेज़ों के सेट को लौटाती है जो प्रश्न को ठीक-ठीक संतुष्ट करते हैं।
Definition
बूलियन पुनर्प्राप्ति प्रत्येक दस्तावेज़ को शब्दों के एक सेट के रूप में और प्रत्येक प्रश्न को एक बूलियन अभिव्यक्ति के रूप में दर्शाती है, ठीक उन दस्तावेज़ों को लौटाती है जिनके शब्द सेट अभिव्यक्ति को सत्य बनाते हैं; विस्तारित बूलियन पुनर्प्राप्ति आंशिक मिलान की डिग्री निर्दिष्ट करके इस सब-या-कुछ नहीं अर्थशास्त्र को शिथिल करती है ताकि परिणामों को रैंक किया जा सके।
Scope
यह विषय पुनर्प्राप्ति के क्लासिक बूलियन मॉडल को शामिल करता है, जिसमें एक प्रश्न शब्दों पर एक तार्किक अभिव्यक्ति होता है और एक दस्तावेज़ या तो इसे संतुष्ट करता है या नहीं, और इसके विस्तार जो सख्त सेट-सैद्धांतिक अर्थशास्त्र को नरम करके एक रैंकिंग उत्पन्न करते हैं, विशेष रूप से विस्तारित बूलियन (पी-नॉर्म) मॉडल। यह क्वेरी सिंटैक्स, पोस्टिंग पर सेट ऑपरेशंस, सटीक-मिलान पुनर्प्राप्ति की ताकत, और उन सीमाओं को संबोधित करता है जिन्होंने रैंक किए गए विकल्पों को प्रेरित किया।
Core questions
- AND, OR, और NOT का उपयोग करके शब्दों के संयोजन के रूप में एक प्रश्न को कैसे व्यक्त किया जाता है?
- दस्तावेज़ों के मिलान सेट की गणना के लिए पोस्टिंग पर सेट ऑपरेशंस का उपयोग कैसे किया जाता है?
- सख्त बूलियन मिलान एक अनरैंकड परिणाम सेट क्यों उत्पन्न करता है, और यह एक समस्या क्यों हो सकती है?
- विस्तारित बूलियन मॉडल रैंकिंग को सक्षम करने के लिए आंशिक मिलान स्कोर कैसे निर्दिष्ट करते हैं?
- किन सेटिंग्स में सटीक-मिलान बूलियन पुनर्प्राप्ति रैंक किए गए पुनर्प्राप्ति से बेहतर रहती है?
Key concepts
- बूलियन ऑपरेटर (AND, OR, NOT)
- सटीक-मिलान पुनर्प्राप्ति
- पोस्टिंग पर सेट ऑपरेशंस
- अनरैंकड परिणाम सेट
- पी-नॉर्म मॉडल
- आंशिक मिलान और सॉफ्ट बूलियन ऑपरेटर
- क्वेरी अभिव्यक्ति
Key theories
- सेट-सैद्धांतिक सटीक मिलान
- बूलियन मॉडल एक प्रश्न को शब्द-उपस्थिति पर एक तार्किक विधेय के रूप में व्याख्या करता है और संतुष्ट करने वाले दस्तावेज़ों का सटीक सेट लौटाता है, जो सटीक, अनुमानित नियंत्रण देता है लेकिन प्रासंगिकता की डिग्री की कोई धारणा नहीं देता है।
- विस्तारित बूलियन (पी-नॉर्म) मॉडल
- दस्तावेज़ों और प्रश्नों को एक भारित शब्द स्थान में एम्बेड करके और एक ट्यूनेबल पी-नॉर्म के माध्यम से AND और OR के लिए दूरी-आधारित संतुष्टि की डिग्री की गणना करके, विस्तारित बूलियन मॉडल बूलियन प्रश्नों की तार्किक संरचना को बनाए रखते हुए एक रैंकिंग प्राप्त करता है।
Clinical relevance
बूलियन पुनर्प्राप्ति अभी भी केंद्रीय है जहाँ सटीक, लेखापरीक्षण योग्य चयन मायने रखता है: कानूनी और पेटेंट खोज, व्यवस्थित-समीक्षा साहित्य स्क्रीनिंग, और पुस्तकालय और डेटाबेस प्रणालियों के उन्नत-खोज फ़िल्टर। विस्तारित बूलियन विचार संरचित क्वेरी भाषाओं को सूचित करते हैं जो तार्किक ऑपरेटरों को स्कोरिंग के साथ जोड़ते हैं।
History
बूलियन पुनर्प्राप्ति 1960 और 1970 के दशक के माध्यम से शुरुआती वाणिज्यिक और ग्रंथ सूची खोज प्रणालियों का प्रमुख प्रतिमान था क्योंकि यह उलटी सूचियों पर कुशल सेट ऑपरेशंस पर स्पष्ट रूप से मैप किया गया था। परिणामों को रैंक करने में इसकी अक्षमता ने साल्टन, फॉक्स और वू के 1983 के विस्तारित बूलियन मॉडल को प्रेरित किया, जिसने बूलियन प्रश्नों की तार्किक संरचना को वेक्टर स्पेस मॉडल के भार के साथ मिश्रित किया।
Key figures
- Gerard Salton
- Edward A. Fox
Related topics
Seminal works
- manning2008
- salton1983ext
Frequently asked questions
- शुद्ध बूलियन सिस्टम अपने परिणामों को रैंक क्यों नहीं करते हैं?
- एक बूलियन प्रश्न एक सत्य/असत्य विधेय है, इसलिए एक दस्तावेज़ या तो इसे संतुष्ट करता है या नहीं; यह अंतर्निहित धारणा नहीं है कि एक दस्तावेज़ कितनी मजबूती से मेल खाता है। भार के बिना, परिणाम सेट में सभी दस्तावेज़ औपचारिक रूप से समतुल्य होते हैं, यही कारण है कि विस्तारित और रैंक किए गए मॉडल विकसित किए गए थे।
- क्या बूलियन पुनर्प्राप्ति अप्रचलित है?
- नहीं। यह अभी भी व्यापक रूप से उपयोग किया जाता है जहाँ सटीकता और व्याख्यात्मकता आवश्यक है, जैसे कानूनी खोज, पेटेंट खोज, और विशेषज्ञ साहित्य खोज, और अधिकांश आधुनिक खोज इंजन अभी भी रैंक किए गए पुनर्प्राप्ति के साथ बूलियन-शैली ऑपरेटरों को उजागर करते हैं।