इसे 'इन्वर्टेड' इंडेक्स क्यों कहा जाता है?

एक सामान्य (फॉरवर्ड) इंडेक्स प्रत्येक दस्तावेज़ के लिए उसमें निहित पदों को सूचीबद्ध करता है। इन्वर्टेड इंडेक्स इस मैपिंग को उलट देता है ताकि प्रत्येक पद के लिए उन दस्तावेज़ों को सूचीबद्ध किया जा सके जिनमें वह पद होता है। यह उलटाव ही पद-आधारित लुकअप को तेज़ बनाता है।

एक स्थितिगत इंडेक्स का उपयोग किस लिए किया जाता है?

एक स्थितिगत इंडेक्स उन स्थितियों को संग्रहीत करता है जिन पर प्रत्येक पद प्रत्येक दस्तावेज़ के भीतर होता है। यह सिस्टम को वाक्यांश प्रश्नों और निकटता प्रश्नों का उत्तर देने की सुविधा देता है, जहाँ पदों का क्रम या निकटता मायने रखती है, न कि केवल यह कि पद दस्तावेज़ में कहीं दिखाई देते हैं।

इन्वर्टेड इंडेक्स

एक इन्वर्टेड इंडेक्स किसी संग्रह में प्रत्येक पद को उन दस्तावेज़ों की पोस्टिंग सूची से मैप करता है जिनमें वह पद होता है, जिससे एक खोज प्रणाली को प्रत्येक दस्तावेज़ को स्कैन किए बिना मिलान करने वाले दस्तावेज़ों को खोजने में मदद मिलती है।

PaperMind से विषय खोजेंजल्द हीFind papers & topics

Tools & resources

स्लाइड डाउनलोड करें

Learn & explore

वीडियोजल्द ही

Definition

एक इन्वर्टेड इंडेक्स एक डेटा संरचना है जिसमें अनुक्रमित पदों का एक शब्दकोश होता है, प्रत्येक एक पोस्टिंग सूची की ओर इशारा करता है जो पद वाले दस्तावेज़ों को सूचीबद्ध करता है, जिसे अक्सर आवृत्तियों और पद स्थितियों के साथ एनोटेट किया जाता है, ताकि पोस्टिंग सूचियों को प्रतिच्छेदित या मर्ज करके पुनर्प्राप्ति की जा सके।

Scope

यह विषय इन्वर्टेड इंडेक्स की संरचना और निर्माण को शामिल करता है: पदों का शब्दकोश, दस्तावेज़ पहचानकर्ताओं, पद आवृत्तियों और स्थितियों को रिकॉर्ड करने वाली पोस्टिंग सूचियाँ, और बड़े संग्रहों पर इंडेक्स बनाने और अपडेट करने वाले एल्गोरिदम, जिसमें ब्लॉक्ड सॉर्ट-आधारित इंडेक्सिंग और सिंगल-पास इन-मेमोरी इंडेक्सिंग शामिल हैं। यह वाक्यांश प्रश्नों के लिए स्थितिगत जानकारी और इंडेक्स रखरखाव की इंजीनियरिंग को संबोधित करता है, जबकि संपीड़न और क्वेरी-मूल्यांकन रणनीति को आसन्न विषयों पर छोड़ देता है।

Core questions

एक शब्दकोश प्रविष्टि और उसकी पोस्टिंग सूची में क्या होता है?
वाक्यांश और निकटता प्रश्नों का समर्थन करने के लिए स्थितियाँ कैसे संग्रहीत की जाती हैं?
जब संग्रह मेमोरी के लिए बहुत बड़ा हो तो इन्वर्टेड इंडेक्स कैसे बनाया जाता है?
दस्तावेज़ों को जोड़ने, बदलने या हटाने पर इंडेक्स को कैसे अपडेट किया जाता है?
पोस्टिंग सूचियाँ संयोजी प्रश्नों के लिए कुशल प्रतिच्छेदन का समर्थन कैसे करती हैं?

Key concepts

पद शब्दकोश
पोस्टिंग सूची
दस्तावेज़ पहचानकर्ता
स्थितिगत इंडेक्स
पद आवृत्ति भंडारण
ब्लॉक्ड सॉर्ट-आधारित इंडेक्सिंग (BSBI)
सिंगल-पास इन-मेमोरी इंडेक्सिंग (SPIMI)
इंडेक्स मर्जिंग और अपडेट

Key theories

शब्दकोश और पोस्टिंग संगठन: एक कॉम्पैक्ट पद शब्दकोश को परिवर्तनीय-लंबाई वाली पोस्टिंग सूचियों से अलग करने से सिस्टम को एक पद को तेज़ी से देखने और फिर केवल प्रासंगिक दस्तावेज़ों को स्ट्रीम करने की सुविधा मिलती है, जो सभी इन्वर्टेड-इंडेक्स पुनर्प्राप्ति का संरचनात्मक आधार है।
स्केलेबल इंडेक्स निर्माण: डिस्क-आधारित विधियाँ जैसे ब्लॉक्ड सॉर्ट-आधारित इंडेक्सिंग और सिंगल-पास इन-मेमोरी इंडेक्सिंग आंशिक इंडेक्स को संचित और मर्ज करके मेमोरी से कहीं बड़े संग्रहों के लिए इन्वर्टेड फ़ाइलें बनाती हैं।

Clinical relevance

इन्वर्टेड इंडेक्स वस्तुतः सभी टेक्स्ट खोज प्रणालियों की केंद्रीय डेटा संरचना है, जिसमें वेब खोज इंजन, ल्यूसीन (Lucene) और उसके डेरिवेटिव जैसे ओपन-सोर्स खोज प्लेटफॉर्म, और डेटाबेस पूर्ण-पाठ खोज शामिल हैं। इसका डिज़ाइन यह नियंत्रित करता है कि किस प्रकार की क्वेरीज़ समर्थित हैं और उनका कितनी जल्दी और सस्ते में उत्तर दिया जा सकता है।

History

इन्वर्टेड फ़ाइलों का उपयोग प्रारंभिक ग्रंथ सूची पुनर्प्राप्ति प्रणालियों में किया गया था और संग्रह बढ़ने के साथ पूर्ण-पाठ खोज के लिए मानक संरचना बन गईं। 1990 और 2000 के दशक में अनुसंधान, जिसमें स्केलेबल निर्माण विधियाँ जैसे सिंगल-पास इन-मेमोरी इंडेक्सिंग शामिल हैं, ने वेब-स्केल कॉर्पोरा को अनुक्रमित करना व्यावहारिक बना दिया, और यह संरचना अब व्यापक रूप से उपयोग की जाने वाली ओपन-सोर्स खोज पुस्तकालयों को आधार प्रदान करती है।

Key figures

Justin Zobel
Alistair Moffat
Steffen Heinz

Seminal works

zobel2006
heinz2003
manning2008

Frequently asked questions

इसे 'इन्वर्टेड' इंडेक्स क्यों कहा जाता है?: एक सामान्य (फॉरवर्ड) इंडेक्स प्रत्येक दस्तावेज़ के लिए उसमें निहित पदों को सूचीबद्ध करता है। इन्वर्टेड इंडेक्स इस मैपिंग को उलट देता है ताकि प्रत्येक पद के लिए उन दस्तावेज़ों को सूचीबद्ध किया जा सके जिनमें वह पद होता है। यह उलटाव ही पद-आधारित लुकअप को तेज़ बनाता है।
एक स्थितिगत इंडेक्स का उपयोग किस लिए किया जाता है?: एक स्थितिगत इंडेक्स उन स्थितियों को संग्रहीत करता है जिन पर प्रत्येक पद प्रत्येक दस्तावेज़ के भीतर होता है। यह सिस्टम को वाक्यांश प्रश्नों और निकटता प्रश्नों का उत्तर देने की सुविधा देता है, जहाँ पदों का क्रम या निकटता मायने रखती है, न कि केवल यह कि पद दस्तावेज़ में कहीं दिखाई देते हैं।