ScholarGate
सहायक

पुनर्प्राप्ति मॉडल

पुनर्प्राप्ति मॉडल औपचारिक ढाँचे होते हैं जो यह परिभाषित करते हैं कि किसी दस्तावेज़ का किसी क्वेरी से मेल खाना क्या होता है और सूचना की आवश्यकता के जवाब में दस्तावेज़ों को कैसे स्कोर और रैंक किया जाता है।

PaperMind से विषय खोजेंजल्द हीFind papers & topics
Tools & resources
स्लाइड डाउनलोड करें
Learn & explore
वीडियोजल्द ही

Definition

एक पुनर्प्राप्ति मॉडल दस्तावेज़ और क्वेरी प्रतिनिधित्व का एक सटीक विनिर्देश है, साथ ही एक रैंकिंग या मिलान फ़ंक्शन भी है, जो एक क्वेरी दिए जाने पर, प्रत्येक दस्तावेज़ को एक स्कोर प्रदान करता है जो अंतर्निहित सूचना आवश्यकता के लिए उसकी अनुमानित प्रासंगिकता को दर्शाता है।

Scope

यह क्षेत्र क्वेरी को दस्तावेज़ों से मिलाने और परिणामों को रैंक करने के लिए उपयोग किए जाने वाले प्रमुख गणितीय मॉडलों को शामिल करता है: सेट-सैद्धांतिक बूलियन और विस्तारित बूलियन पुनर्प्राप्ति, tf-idf जैसे पद भारण के साथ बीजगणितीय वेक्टर स्पेस मॉडल, बाइनरी स्वतंत्रता मॉडल और BM25 सहित संभाव्य मॉडल, और पुनर्प्राप्ति के लिए सांख्यिकीय भाषा मॉडल। यह बताता है कि प्रासंगिकता को कैसे औपचारिक रूप दिया जाता है, पद भार कैसे निर्धारित किए जाते हैं, और समानता या संभाव्यता स्कोर रैंकिंग को कैसे प्रेरित करता है। इसमें वे डेटा संरचनाएँ शामिल नहीं हैं जो पुनर्प्राप्ति को कुशल बनाती हैं (अनुक्रमण और क्वेरी प्रसंस्करण के तहत कवर की गई हैं) और यह कि एक मॉडल कितना अच्छा प्रदर्शन करता है इसका अनुभवजन्य माप (मूल्यांकन के तहत कवर किया गया है)।

Sub-topics

Core questions

  • दस्तावेज़ों और क्वेरीज़ का कौन सा औपचारिक प्रतिनिधित्व एक मॉडल मानता है?
  • एक मॉडल प्रतिनिधित्व को प्रासंगिकता स्कोर या मिलान निर्णय में कैसे बदलता है?
  • किसी दस्तावेज़ के भीतर और एक संग्रह में उनके महत्व को दर्शाने के लिए व्यक्तिगत पदों को कैसे भारित किया जाता है?
  • एक मॉडल प्रासंगिकता में निहित अनिश्चितता का हिसाब कैसे रखता है?
  • एक मॉडल क्या धारणाएँ (जैसे पद स्वतंत्रता) बनाता है, और वे कब टूट जाती हैं?

Key concepts

  • प्रासंगिकता
  • पद भारण और tf-idf
  • बूलियन पुनर्प्राप्ति
  • वेक्टर स्पेस और कोसाइन समानता
  • संभाव्यता रैंकिंग सिद्धांत
  • बाइनरी स्वतंत्रता मॉडल और BM25
  • क्वेरी संभाव्यता और स्मूथिंग
  • पद स्वतंत्रता धारणा
  • रैंकिंग फ़ंक्शन

Key theories

वेक्टर स्पेस मॉडल
दस्तावेज़ों और क्वेरीज़ को उच्च-आयामी पद स्पेस में वैक्टर के रूप में दर्शाया जाता है, आमतौर पर tf-idf भार के साथ, और प्रासंगिकता का अनुमान एक ज्यामितीय समानता जैसे कि क्वेरी और दस्तावेज़ वैक्टर के बीच के कोण के कोसाइन द्वारा लगाया जाता है।
संभाव्यता रैंकिंग सिद्धांत और संभाव्य पुनर्प्राप्ति
किसी क्वेरी के लिए प्रासंगिकता की उनकी अनुमानित संभाव्यता द्वारा दस्तावेज़ों को रैंक करना बताए गए अनुमानों के तहत पुनर्प्राप्ति प्रभावशीलता को अनुकूलित करता है; बाइनरी स्वतंत्रता मॉडल और इसका व्यावहारिक वंशज BM25 प्रासंगिकता संभावनाओं से प्राप्त पद-भारण के साथ इसे क्रियान्वित करते हैं।
पुनर्प्राप्ति के लिए भाषा मॉडलिंग दृष्टिकोण
प्रत्येक दस्तावेज़ को एक जनरेटिव भाषा मॉडल से एक नमूने के रूप में माना जाता है, और दस्तावेज़ों को उस संभाव्यता द्वारा रैंक किया जाता है कि उनके मॉडल ने क्वेरी उत्पन्न की होगी, जिसमें अनदेखे क्वेरी पदों को संभालने के लिए स्मूथिंग का उपयोग किया जाता है।

Clinical relevance

पुनर्प्राप्ति मॉडल अनिवार्य रूप से हर खोज प्रणाली का स्कोरिंग कोर होते हैं, पुस्तकालय कैटलॉग और एंटरप्राइज़ खोज से लेकर वेब खोज इंजनों और प्रश्न उत्तर और पुनर्प्राप्ति-संवर्धित पीढ़ी के उम्मीदवार-रैंकिंग चरणों तक। विशेष रूप से tf-idf और BM25 मजबूत, व्यापक रूप से तैनात आधारभूत बने हुए हैं।

History

वेक्टर स्पेस मॉडल 1960 और 1970 के दशक में साल्टन के SMART प्रोजेक्ट से उभरा, जिसने पुनर्प्राप्ति को एक बीजगणितीय आधार दिया। समानांतर में, रॉबर्टसन और स्पार्क जोन्स ने 1970 के दशक में प्रासंगिकता भारण का एक संभाव्य सिद्धांत विकसित किया, जो बाद में BM25 रैंकिंग फ़ंक्शन में परिपक्व हुआ। पोंटे और क्रॉफ्ट द्वारा 1998 में प्रस्तुत भाषा मॉडलिंग दृष्टिकोण ने पुनर्प्राप्ति को सांख्यिकीय पीढ़ी के रूप में फिर से परिभाषित किया और मॉडलिंग टूलकिट का विस्तार किया।

Key figures

  • Gerard Salton
  • Stephen E. Robertson
  • Karen Spärck Jones
  • W. Bruce Croft
  • C. J. van Rijsbergen

Related topics

Seminal works

  • salton1975
  • robertson1976
  • ponte1998
  • manning2008

Frequently asked questions

पुनर्प्राप्ति मॉडल और रैंकिंग फ़ंक्शन में क्या अंतर है?
एक पुनर्प्राप्ति मॉडल समग्र ढाँचा है जो यह निर्दिष्ट करता है कि दस्तावेज़ों और क्वेरीज़ का प्रतिनिधित्व कैसे किया जाता है और प्रासंगिकता की कल्पना कैसे की जाती है; रैंकिंग फ़ंक्शन ठोस स्कोरिंग सूत्र है जो मॉडल उत्पन्न करता है, जैसे वेक्टर स्पेस मॉडल में कोसाइन समानता या संभाव्य परिवार में BM25 सूत्र।
जब न्यूरल मॉडल मौजूद हैं तो BM25 का उपयोग अभी भी क्यों किया जाता है?
BM25 तेज़ है, उसे किसी प्रशिक्षण डेटा की आवश्यकता नहीं होती है, उसमें बहुत कम पैरामीटर होते हैं, और यह एक मजबूत आधारभूत बना हुआ है जिसके खिलाफ न्यूरल रैंकर्स को अक्सर मापा जाता है और उनके साथ जोड़ा जाता है। कई आधुनिक प्रणालियाँ BM25 का उपयोग एक प्रारंभिक उम्मीदवार सेट को पुनः प्राप्त करने के लिए करती हैं जिसे एक अधिक महंगा मॉडल फिर से रैंक करता है।

Methods for this concept

Related concepts