इन्वर्टेड इंडेक्स
एक इन्वर्टेड इंडेक्स किसी संग्रह में प्रत्येक पद को उन दस्तावेज़ों की पोस्टिंग सूची से मैप करता है जिनमें वह पद होता है, जिससे एक खोज प्रणाली को प्रत्येक दस्तावेज़ को स्कैन किए बिना मिलान करने वाले दस्तावेज़ों को खोजने में मदद मिलती है।
Definition
एक इन्वर्टेड इंडेक्स एक डेटा संरचना है जिसमें अनुक्रमित पदों का एक शब्दकोश होता है, प्रत्येक एक पोस्टिंग सूची की ओर इशारा करता है जो पद वाले दस्तावेज़ों को सूचीबद्ध करता है, जिसे अक्सर आवृत्तियों और पद स्थितियों के साथ एनोटेट किया जाता है, ताकि पोस्टिंग सूचियों को प्रतिच्छेदित या मर्ज करके पुनर्प्राप्ति की जा सके।
Scope
यह विषय इन्वर्टेड इंडेक्स की संरचना और निर्माण को शामिल करता है: पदों का शब्दकोश, दस्तावेज़ पहचानकर्ताओं, पद आवृत्तियों और स्थितियों को रिकॉर्ड करने वाली पोस्टिंग सूचियाँ, और बड़े संग्रहों पर इंडेक्स बनाने और अपडेट करने वाले एल्गोरिदम, जिसमें ब्लॉक्ड सॉर्ट-आधारित इंडेक्सिंग और सिंगल-पास इन-मेमोरी इंडेक्सिंग शामिल हैं। यह वाक्यांश प्रश्नों के लिए स्थितिगत जानकारी और इंडेक्स रखरखाव की इंजीनियरिंग को संबोधित करता है, जबकि संपीड़न और क्वेरी-मूल्यांकन रणनीति को आसन्न विषयों पर छोड़ देता है।
Core questions
- एक शब्दकोश प्रविष्टि और उसकी पोस्टिंग सूची में क्या होता है?
- वाक्यांश और निकटता प्रश्नों का समर्थन करने के लिए स्थितियाँ कैसे संग्रहीत की जाती हैं?
- जब संग्रह मेमोरी के लिए बहुत बड़ा हो तो इन्वर्टेड इंडेक्स कैसे बनाया जाता है?
- दस्तावेज़ों को जोड़ने, बदलने या हटाने पर इंडेक्स को कैसे अपडेट किया जाता है?
- पोस्टिंग सूचियाँ संयोजी प्रश्नों के लिए कुशल प्रतिच्छेदन का समर्थन कैसे करती हैं?
Key concepts
- पद शब्दकोश
- पोस्टिंग सूची
- दस्तावेज़ पहचानकर्ता
- स्थितिगत इंडेक्स
- पद आवृत्ति भंडारण
- ब्लॉक्ड सॉर्ट-आधारित इंडेक्सिंग (BSBI)
- सिंगल-पास इन-मेमोरी इंडेक्सिंग (SPIMI)
- इंडेक्स मर्जिंग और अपडेट
Key theories
- शब्दकोश और पोस्टिंग संगठन
- एक कॉम्पैक्ट पद शब्दकोश को परिवर्तनीय-लंबाई वाली पोस्टिंग सूचियों से अलग करने से सिस्टम को एक पद को तेज़ी से देखने और फिर केवल प्रासंगिक दस्तावेज़ों को स्ट्रीम करने की सुविधा मिलती है, जो सभी इन्वर्टेड-इंडेक्स पुनर्प्राप्ति का संरचनात्मक आधार है।
- स्केलेबल इंडेक्स निर्माण
- डिस्क-आधारित विधियाँ जैसे ब्लॉक्ड सॉर्ट-आधारित इंडेक्सिंग और सिंगल-पास इन-मेमोरी इंडेक्सिंग आंशिक इंडेक्स को संचित और मर्ज करके मेमोरी से कहीं बड़े संग्रहों के लिए इन्वर्टेड फ़ाइलें बनाती हैं।
Clinical relevance
इन्वर्टेड इंडेक्स वस्तुतः सभी टेक्स्ट खोज प्रणालियों की केंद्रीय डेटा संरचना है, जिसमें वेब खोज इंजन, ल्यूसीन (Lucene) और उसके डेरिवेटिव जैसे ओपन-सोर्स खोज प्लेटफॉर्म, और डेटाबेस पूर्ण-पाठ खोज शामिल हैं। इसका डिज़ाइन यह नियंत्रित करता है कि किस प्रकार की क्वेरीज़ समर्थित हैं और उनका कितनी जल्दी और सस्ते में उत्तर दिया जा सकता है।
History
इन्वर्टेड फ़ाइलों का उपयोग प्रारंभिक ग्रंथ सूची पुनर्प्राप्ति प्रणालियों में किया गया था और संग्रह बढ़ने के साथ पूर्ण-पाठ खोज के लिए मानक संरचना बन गईं। 1990 और 2000 के दशक में अनुसंधान, जिसमें स्केलेबल निर्माण विधियाँ जैसे सिंगल-पास इन-मेमोरी इंडेक्सिंग शामिल हैं, ने वेब-स्केल कॉर्पोरा को अनुक्रमित करना व्यावहारिक बना दिया, और यह संरचना अब व्यापक रूप से उपयोग की जाने वाली ओपन-सोर्स खोज पुस्तकालयों को आधार प्रदान करती है।
Key figures
- Justin Zobel
- Alistair Moffat
- Steffen Heinz
Related topics
Seminal works
- zobel2006
- heinz2003
- manning2008
Frequently asked questions
- इसे 'इन्वर्टेड' इंडेक्स क्यों कहा जाता है?
- एक सामान्य (फॉरवर्ड) इंडेक्स प्रत्येक दस्तावेज़ के लिए उसमें निहित पदों को सूचीबद्ध करता है। इन्वर्टेड इंडेक्स इस मैपिंग को उलट देता है ताकि प्रत्येक पद के लिए उन दस्तावेज़ों को सूचीबद्ध किया जा सके जिनमें वह पद होता है। यह उलटाव ही पद-आधारित लुकअप को तेज़ बनाता है।
- एक स्थितिगत इंडेक्स का उपयोग किस लिए किया जाता है?
- एक स्थितिगत इंडेक्स उन स्थितियों को संग्रहीत करता है जिन पर प्रत्येक पद प्रत्येक दस्तावेज़ के भीतर होता है। यह सिस्टम को वाक्यांश प्रश्नों और निकटता प्रश्नों का उत्तर देने की सुविधा देता है, जहाँ पदों का क्रम या निकटता मायने रखती है, न कि केवल यह कि पद दस्तावेज़ में कहीं दिखाई देते हैं।