पुनर्प्राप्ति मॉडल और रैंकिंग फ़ंक्शन में क्या अंतर है?

एक पुनर्प्राप्ति मॉडल समग्र ढाँचा है जो यह निर्दिष्ट करता है कि दस्तावेज़ों और क्वेरीज़ का प्रतिनिधित्व कैसे किया जाता है और प्रासंगिकता की कल्पना कैसे की जाती है; रैंकिंग फ़ंक्शन ठोस स्कोरिंग सूत्र है जो मॉडल उत्पन्न करता है, जैसे वेक्टर स्पेस मॉडल में कोसाइन समानता या संभाव्य परिवार में BM25 सूत्र।

जब न्यूरल मॉडल मौजूद हैं तो BM25 का उपयोग अभी भी क्यों किया जाता है?

BM25 तेज़ है, उसे किसी प्रशिक्षण डेटा की आवश्यकता नहीं होती है, उसमें बहुत कम पैरामीटर होते हैं, और यह एक मजबूत आधारभूत बना हुआ है जिसके खिलाफ न्यूरल रैंकर्स को अक्सर मापा जाता है और उनके साथ जोड़ा जाता है। कई आधुनिक प्रणालियाँ BM25 का उपयोग एक प्रारंभिक उम्मीदवार सेट को पुनः प्राप्त करने के लिए करती हैं जिसे एक अधिक महंगा मॉडल फिर से रैंक करता है।

पुनर्प्राप्ति मॉडल

पुनर्प्राप्ति मॉडल औपचारिक ढाँचे होते हैं जो यह परिभाषित करते हैं कि किसी दस्तावेज़ का किसी क्वेरी से मेल खाना क्या होता है और सूचना की आवश्यकता के जवाब में दस्तावेज़ों को कैसे स्कोर और रैंक किया जाता है।

PaperMind से विषय खोजेंजल्द हीFind papers & topics

Tools & resources

स्लाइड डाउनलोड करें

Learn & explore

वीडियोजल्द ही

Definition

एक पुनर्प्राप्ति मॉडल दस्तावेज़ और क्वेरी प्रतिनिधित्व का एक सटीक विनिर्देश है, साथ ही एक रैंकिंग या मिलान फ़ंक्शन भी है, जो एक क्वेरी दिए जाने पर, प्रत्येक दस्तावेज़ को एक स्कोर प्रदान करता है जो अंतर्निहित सूचना आवश्यकता के लिए उसकी अनुमानित प्रासंगिकता को दर्शाता है।

Scope

यह क्षेत्र क्वेरी को दस्तावेज़ों से मिलाने और परिणामों को रैंक करने के लिए उपयोग किए जाने वाले प्रमुख गणितीय मॉडलों को शामिल करता है: सेट-सैद्धांतिक बूलियन और विस्तारित बूलियन पुनर्प्राप्ति, tf-idf जैसे पद भारण के साथ बीजगणितीय वेक्टर स्पेस मॉडल, बाइनरी स्वतंत्रता मॉडल और BM25 सहित संभाव्य मॉडल, और पुनर्प्राप्ति के लिए सांख्यिकीय भाषा मॉडल। यह बताता है कि प्रासंगिकता को कैसे औपचारिक रूप दिया जाता है, पद भार कैसे निर्धारित किए जाते हैं, और समानता या संभाव्यता स्कोर रैंकिंग को कैसे प्रेरित करता है। इसमें वे डेटा संरचनाएँ शामिल नहीं हैं जो पुनर्प्राप्ति को कुशल बनाती हैं (अनुक्रमण और क्वेरी प्रसंस्करण के तहत कवर की गई हैं) और यह कि एक मॉडल कितना अच्छा प्रदर्शन करता है इसका अनुभवजन्य माप (मूल्यांकन के तहत कवर किया गया है)।

Sub-topics

Core questions

दस्तावेज़ों और क्वेरीज़ का कौन सा औपचारिक प्रतिनिधित्व एक मॉडल मानता है?
एक मॉडल प्रतिनिधित्व को प्रासंगिकता स्कोर या मिलान निर्णय में कैसे बदलता है?
किसी दस्तावेज़ के भीतर और एक संग्रह में उनके महत्व को दर्शाने के लिए व्यक्तिगत पदों को कैसे भारित किया जाता है?
एक मॉडल प्रासंगिकता में निहित अनिश्चितता का हिसाब कैसे रखता है?
एक मॉडल क्या धारणाएँ (जैसे पद स्वतंत्रता) बनाता है, और वे कब टूट जाती हैं?

Key concepts

प्रासंगिकता
पद भारण और tf-idf
बूलियन पुनर्प्राप्ति
वेक्टर स्पेस और कोसाइन समानता
संभाव्यता रैंकिंग सिद्धांत
बाइनरी स्वतंत्रता मॉडल और BM25
क्वेरी संभाव्यता और स्मूथिंग
पद स्वतंत्रता धारणा
रैंकिंग फ़ंक्शन

Key theories

वेक्टर स्पेस मॉडल: दस्तावेज़ों और क्वेरीज़ को उच्च-आयामी पद स्पेस में वैक्टर के रूप में दर्शाया जाता है, आमतौर पर tf-idf भार के साथ, और प्रासंगिकता का अनुमान एक ज्यामितीय समानता जैसे कि क्वेरी और दस्तावेज़ वैक्टर के बीच के कोण के कोसाइन द्वारा लगाया जाता है।
संभाव्यता रैंकिंग सिद्धांत और संभाव्य पुनर्प्राप्ति: किसी क्वेरी के लिए प्रासंगिकता की उनकी अनुमानित संभाव्यता द्वारा दस्तावेज़ों को रैंक करना बताए गए अनुमानों के तहत पुनर्प्राप्ति प्रभावशीलता को अनुकूलित करता है; बाइनरी स्वतंत्रता मॉडल और इसका व्यावहारिक वंशज BM25 प्रासंगिकता संभावनाओं से प्राप्त पद-भारण के साथ इसे क्रियान्वित करते हैं।
पुनर्प्राप्ति के लिए भाषा मॉडलिंग दृष्टिकोण: प्रत्येक दस्तावेज़ को एक जनरेटिव भाषा मॉडल से एक नमूने के रूप में माना जाता है, और दस्तावेज़ों को उस संभाव्यता द्वारा रैंक किया जाता है कि उनके मॉडल ने क्वेरी उत्पन्न की होगी, जिसमें अनदेखे क्वेरी पदों को संभालने के लिए स्मूथिंग का उपयोग किया जाता है।

Clinical relevance

पुनर्प्राप्ति मॉडल अनिवार्य रूप से हर खोज प्रणाली का स्कोरिंग कोर होते हैं, पुस्तकालय कैटलॉग और एंटरप्राइज़ खोज से लेकर वेब खोज इंजनों और प्रश्न उत्तर और पुनर्प्राप्ति-संवर्धित पीढ़ी के उम्मीदवार-रैंकिंग चरणों तक। विशेष रूप से tf-idf और BM25 मजबूत, व्यापक रूप से तैनात आधारभूत बने हुए हैं।

History

वेक्टर स्पेस मॉडल 1960 और 1970 के दशक में साल्टन के SMART प्रोजेक्ट से उभरा, जिसने पुनर्प्राप्ति को एक बीजगणितीय आधार दिया। समानांतर में, रॉबर्टसन और स्पार्क जोन्स ने 1970 के दशक में प्रासंगिकता भारण का एक संभाव्य सिद्धांत विकसित किया, जो बाद में BM25 रैंकिंग फ़ंक्शन में परिपक्व हुआ। पोंटे और क्रॉफ्ट द्वारा 1998 में प्रस्तुत भाषा मॉडलिंग दृष्टिकोण ने पुनर्प्राप्ति को सांख्यिकीय पीढ़ी के रूप में फिर से परिभाषित किया और मॉडलिंग टूलकिट का विस्तार किया।

Key figures

Gerard Salton
Stephen E. Robertson
Karen Spärck Jones
W. Bruce Croft
C. J. van Rijsbergen

Seminal works

salton1975
robertson1976
ponte1998
manning2008

Frequently asked questions

पुनर्प्राप्ति मॉडल और रैंकिंग फ़ंक्शन में क्या अंतर है?: एक पुनर्प्राप्ति मॉडल समग्र ढाँचा है जो यह निर्दिष्ट करता है कि दस्तावेज़ों और क्वेरीज़ का प्रतिनिधित्व कैसे किया जाता है और प्रासंगिकता की कल्पना कैसे की जाती है; रैंकिंग फ़ंक्शन ठोस स्कोरिंग सूत्र है जो मॉडल उत्पन्न करता है, जैसे वेक्टर स्पेस मॉडल में कोसाइन समानता या संभाव्य परिवार में BM25 सूत्र।
जब न्यूरल मॉडल मौजूद हैं तो BM25 का उपयोग अभी भी क्यों किया जाता है?: BM25 तेज़ है, उसे किसी प्रशिक्षण डेटा की आवश्यकता नहीं होती है, उसमें बहुत कम पैरामीटर होते हैं, और यह एक मजबूत आधारभूत बना हुआ है जिसके खिलाफ न्यूरल रैंकर्स को अक्सर मापा जाता है और उनके साथ जोड़ा जाता है। कई आधुनिक प्रणालियाँ BM25 का उपयोग एक प्रारंभिक उम्मीदवार सेट को पुनः प्राप्त करने के लिए करती हैं जिसे एक अधिक महंगा मॉडल फिर से रैंक करता है।