पुनर्प्राप्ति मॉडल
पुनर्प्राप्ति मॉडल औपचारिक ढाँचे होते हैं जो यह परिभाषित करते हैं कि किसी दस्तावेज़ का किसी क्वेरी से मेल खाना क्या होता है और सूचना की आवश्यकता के जवाब में दस्तावेज़ों को कैसे स्कोर और रैंक किया जाता है।
Definition
एक पुनर्प्राप्ति मॉडल दस्तावेज़ और क्वेरी प्रतिनिधित्व का एक सटीक विनिर्देश है, साथ ही एक रैंकिंग या मिलान फ़ंक्शन भी है, जो एक क्वेरी दिए जाने पर, प्रत्येक दस्तावेज़ को एक स्कोर प्रदान करता है जो अंतर्निहित सूचना आवश्यकता के लिए उसकी अनुमानित प्रासंगिकता को दर्शाता है।
Scope
यह क्षेत्र क्वेरी को दस्तावेज़ों से मिलाने और परिणामों को रैंक करने के लिए उपयोग किए जाने वाले प्रमुख गणितीय मॉडलों को शामिल करता है: सेट-सैद्धांतिक बूलियन और विस्तारित बूलियन पुनर्प्राप्ति, tf-idf जैसे पद भारण के साथ बीजगणितीय वेक्टर स्पेस मॉडल, बाइनरी स्वतंत्रता मॉडल और BM25 सहित संभाव्य मॉडल, और पुनर्प्राप्ति के लिए सांख्यिकीय भाषा मॉडल। यह बताता है कि प्रासंगिकता को कैसे औपचारिक रूप दिया जाता है, पद भार कैसे निर्धारित किए जाते हैं, और समानता या संभाव्यता स्कोर रैंकिंग को कैसे प्रेरित करता है। इसमें वे डेटा संरचनाएँ शामिल नहीं हैं जो पुनर्प्राप्ति को कुशल बनाती हैं (अनुक्रमण और क्वेरी प्रसंस्करण के तहत कवर की गई हैं) और यह कि एक मॉडल कितना अच्छा प्रदर्शन करता है इसका अनुभवजन्य माप (मूल्यांकन के तहत कवर किया गया है)।
Sub-topics
Core questions
- दस्तावेज़ों और क्वेरीज़ का कौन सा औपचारिक प्रतिनिधित्व एक मॉडल मानता है?
- एक मॉडल प्रतिनिधित्व को प्रासंगिकता स्कोर या मिलान निर्णय में कैसे बदलता है?
- किसी दस्तावेज़ के भीतर और एक संग्रह में उनके महत्व को दर्शाने के लिए व्यक्तिगत पदों को कैसे भारित किया जाता है?
- एक मॉडल प्रासंगिकता में निहित अनिश्चितता का हिसाब कैसे रखता है?
- एक मॉडल क्या धारणाएँ (जैसे पद स्वतंत्रता) बनाता है, और वे कब टूट जाती हैं?
Key concepts
- प्रासंगिकता
- पद भारण और tf-idf
- बूलियन पुनर्प्राप्ति
- वेक्टर स्पेस और कोसाइन समानता
- संभाव्यता रैंकिंग सिद्धांत
- बाइनरी स्वतंत्रता मॉडल और BM25
- क्वेरी संभाव्यता और स्मूथिंग
- पद स्वतंत्रता धारणा
- रैंकिंग फ़ंक्शन
Key theories
- वेक्टर स्पेस मॉडल
- दस्तावेज़ों और क्वेरीज़ को उच्च-आयामी पद स्पेस में वैक्टर के रूप में दर्शाया जाता है, आमतौर पर tf-idf भार के साथ, और प्रासंगिकता का अनुमान एक ज्यामितीय समानता जैसे कि क्वेरी और दस्तावेज़ वैक्टर के बीच के कोण के कोसाइन द्वारा लगाया जाता है।
- संभाव्यता रैंकिंग सिद्धांत और संभाव्य पुनर्प्राप्ति
- किसी क्वेरी के लिए प्रासंगिकता की उनकी अनुमानित संभाव्यता द्वारा दस्तावेज़ों को रैंक करना बताए गए अनुमानों के तहत पुनर्प्राप्ति प्रभावशीलता को अनुकूलित करता है; बाइनरी स्वतंत्रता मॉडल और इसका व्यावहारिक वंशज BM25 प्रासंगिकता संभावनाओं से प्राप्त पद-भारण के साथ इसे क्रियान्वित करते हैं।
- पुनर्प्राप्ति के लिए भाषा मॉडलिंग दृष्टिकोण
- प्रत्येक दस्तावेज़ को एक जनरेटिव भाषा मॉडल से एक नमूने के रूप में माना जाता है, और दस्तावेज़ों को उस संभाव्यता द्वारा रैंक किया जाता है कि उनके मॉडल ने क्वेरी उत्पन्न की होगी, जिसमें अनदेखे क्वेरी पदों को संभालने के लिए स्मूथिंग का उपयोग किया जाता है।
Clinical relevance
पुनर्प्राप्ति मॉडल अनिवार्य रूप से हर खोज प्रणाली का स्कोरिंग कोर होते हैं, पुस्तकालय कैटलॉग और एंटरप्राइज़ खोज से लेकर वेब खोज इंजनों और प्रश्न उत्तर और पुनर्प्राप्ति-संवर्धित पीढ़ी के उम्मीदवार-रैंकिंग चरणों तक। विशेष रूप से tf-idf और BM25 मजबूत, व्यापक रूप से तैनात आधारभूत बने हुए हैं।
History
वेक्टर स्पेस मॉडल 1960 और 1970 के दशक में साल्टन के SMART प्रोजेक्ट से उभरा, जिसने पुनर्प्राप्ति को एक बीजगणितीय आधार दिया। समानांतर में, रॉबर्टसन और स्पार्क जोन्स ने 1970 के दशक में प्रासंगिकता भारण का एक संभाव्य सिद्धांत विकसित किया, जो बाद में BM25 रैंकिंग फ़ंक्शन में परिपक्व हुआ। पोंटे और क्रॉफ्ट द्वारा 1998 में प्रस्तुत भाषा मॉडलिंग दृष्टिकोण ने पुनर्प्राप्ति को सांख्यिकीय पीढ़ी के रूप में फिर से परिभाषित किया और मॉडलिंग टूलकिट का विस्तार किया।
Key figures
- Gerard Salton
- Stephen E. Robertson
- Karen Spärck Jones
- W. Bruce Croft
- C. J. van Rijsbergen
Related topics
Seminal works
- salton1975
- robertson1976
- ponte1998
- manning2008
Frequently asked questions
- पुनर्प्राप्ति मॉडल और रैंकिंग फ़ंक्शन में क्या अंतर है?
- एक पुनर्प्राप्ति मॉडल समग्र ढाँचा है जो यह निर्दिष्ट करता है कि दस्तावेज़ों और क्वेरीज़ का प्रतिनिधित्व कैसे किया जाता है और प्रासंगिकता की कल्पना कैसे की जाती है; रैंकिंग फ़ंक्शन ठोस स्कोरिंग सूत्र है जो मॉडल उत्पन्न करता है, जैसे वेक्टर स्पेस मॉडल में कोसाइन समानता या संभाव्य परिवार में BM25 सूत्र।
- जब न्यूरल मॉडल मौजूद हैं तो BM25 का उपयोग अभी भी क्यों किया जाता है?
- BM25 तेज़ है, उसे किसी प्रशिक्षण डेटा की आवश्यकता नहीं होती है, उसमें बहुत कम पैरामीटर होते हैं, और यह एक मजबूत आधारभूत बना हुआ है जिसके खिलाफ न्यूरल रैंकर्स को अक्सर मापा जाता है और उनके साथ जोड़ा जाता है। कई आधुनिक प्रणालियाँ BM25 का उपयोग एक प्रारंभिक उम्मीदवार सेट को पुनः प्राप्त करने के लिए करती हैं जिसे एक अधिक महंगा मॉडल फिर से रैंक करता है।