संभाव्य पुनर्प्राप्ति मॉडल
संभाव्य पुनर्प्राप्ति मॉडल दस्तावेज़ों को किसी क्वेरी के लिए उनकी प्रासंगिकता की अनुमानित संभावना के आधार पर रैंक करते हैं, जो संभाव्यता के सिद्धांत में पद भारण (term weighting) को आधार बनाता है।
Definition
एक संभाव्य पुनर्प्राप्ति मॉडल, प्रत्येक दस्तावेज़ के लिए, यह अनुमान लगाता है कि वह किसी दी गई क्वेरी के लिए कितना प्रासंगिक है और उस संभावना के आधार पर दस्तावेज़ों को रैंक करता है, प्रासंगिक बनाम गैर-प्रासंगिक दस्तावेज़ों में पदों के घटित होने की सापेक्ष संभावना से पद भार प्राप्त करता है।
Scope
यह विषय संभाव्यता सिद्धांत पर निर्मित पुनर्प्राप्ति मॉडल को शामिल करता है: संभाव्यता रैंकिंग सिद्धांत (probability ranking principle), बाइनरी स्वतंत्रता मॉडल (binary independence model) और इसकी प्रासंगिकता-भारण योजना (relevance-weighting scheme), और BM25 रैंकिंग फ़ंक्शन (ranking function) जिसमें इसकी पद-आवृत्ति संतृप्ति (term-frequency saturation) और दस्तावेज़-लंबाई सामान्यीकरण (document-length normalization) शामिल है। यह बताता है कि प्रासंगिकता को एक संभाव्य घटना के रूप में कैसे प्रतिरूपित किया जाता है, प्रासंगिकता जानकारी से पद भार (term weights) का अनुमान कैसे लगाया जाता है, और क्यों परिणामी रैंकिंग बताई गई मान्यताओं के तहत सैद्धांतिक रूप से इष्टतम होती है। इसमें जनरेटिव भाषा मॉडल (generative language models) शामिल नहीं हैं, जिन्हें अलग से वर्णित किया गया है।
Core questions
- इष्टतम रैंकिंग के बारे में संभाव्यता रैंकिंग सिद्धांत क्या कहता है?
- प्रासंगिक बनाम गैर-प्रासंगिक दस्तावेज़ों में एक पद के प्रकट होने की संभावना से पद भार कैसे प्राप्त किए जाते हैं?
- बाइनरी स्वतंत्रता मॉडल कौन सी स्वतंत्रता धारणाएँ बनाता है?
- BM25 पद आवृत्ति संतृप्ति और दस्तावेज़ की लंबाई का हिसाब कैसे रखता है?
- प्रासंगिकता प्रतिक्रिया संभाव्यता अनुमानों को कैसे परिष्कृत कर सकती है?
Key concepts
- प्रासंगिकता की संभावना
- संभाव्यता रैंकिंग सिद्धांत
- बाइनरी स्वतंत्रता मॉडल
- प्रासंगिकता भारण
- BM25 / ओकापी BM25
- पद आवृत्ति संतृप्ति
- दस्तावेज़ लंबाई सामान्यीकरण
- प्रासंगिकता प्रतिक्रिया
Key theories
- संभाव्यता रैंकिंग सिद्धांत
- स्वतंत्र प्रासंगिकता निर्णयों की मान्यताओं के तहत, प्रासंगिकता की संभावना के घटते क्रम में दस्तावेज़ों को रैंक करने से उपयोगकर्ता के लिए सर्वोत्तम समग्र प्रभावशीलता प्राप्त होती है, जो संभाव्य रैंकिंग के लिए सैद्धांतिक औचित्य प्रदान करती है।
- बाइनरी स्वतंत्रता मॉडल
- दस्तावेज़ों को बाइनरी पद-उपस्थिति वैक्टर (binary term-presence vectors) के रूप में मानते हुए और यह मानते हुए कि प्रासंगिकता को देखते हुए पद स्वतंत्र रूप से घटित होते हैं, मॉडल प्रासंगिक बनाम गैर-प्रासंगिक दस्तावेज़ों में इसके घटित होने की संभावना से प्रत्येक पद के लिए एक प्रासंगिकता भार प्राप्त करता है।
- BM25 रैंकिंग फ़ंक्शन
- संभाव्य प्रासंगिकता फ्रेमवर्क का व्यावहारिक स्कोरिंग फ़ंक्शन प्रासंगिकता भारण में अरेखीय पद-आवृत्ति संतृप्ति और दस्तावेज़-लंबाई सामान्यीकरण जोड़ता है, जिससे एक मजबूत, ट्यून करने योग्य रैंकर बनता है जो एक प्रमुख आधार रेखा बना हुआ है।
Clinical relevance
BM25 उत्पादन खोज प्रणालियों और ओपन-सोर्स खोज इंजनों में सबसे व्यापक रूप से तैनात रैंकिंग फ़ंक्शन में से एक है, और यह मानक मजबूत आधार रेखा के रूप में कार्य करता है जिसके विरुद्ध न्यूरल रैंकर्स की तुलना की जाती है। संभाव्य प्रासंगिकता भारण (Probabilistic relevance weighting) भी प्रासंगिकता-प्रतिक्रिया सुविधाओं (relevance-feedback features) को रेखांकित करता है जो उपयोगकर्ता निर्णयों से परिणामों को परिष्कृत करती हैं।
History
संभाव्य IR को रॉबर्टसन और स्पार्क जोन्स के 1976 के प्रासंगिकता-भारण सिद्धांत और वैन रिज्सबर्गन की मूलभूत पाठ्यपुस्तक द्वारा एक ठोस आधार पर रखा गया था। 1980 और 1990 के दशक के दौरान सिटी यूनिवर्सिटी लंदन में ओकापी परियोजना ने इन विचारों को BM25 फ़ंक्शन में परिष्कृत किया, जो TREC मूल्यांकन में प्रमुख साबित हुआ। 2009 के संभाव्य प्रासंगिकता फ्रेमवर्क सर्वेक्षण ने इस परिवार को समेकित किया।
Key figures
- Stephen E. Robertson
- Karen Spärck Jones
- C. J. van Rijsbergen
- Hugo Zaragoza
Related topics
Seminal works
- robertson1976
- robertson2009
- vanrijsbergen1979
Frequently asked questions
- संभाव्यता रैंकिंग सिद्धांत क्या है?
- यह बताता है कि यदि एक पुनर्प्राप्ति प्रणाली क्वेरी के लिए उनकी प्रासंगिकता की संभावना के घटते क्रम में दस्तावेज़ों को रैंक करती है, तो, यह मानते हुए कि प्रासंगिकता निर्णय स्वतंत्र हैं, उपयोगकर्ता के लिए समग्र प्रभावशीलता अधिकतम होती है। यह संभाव्य रैंकिंग का सैद्धांतिक आधार है।
- सरल मान्यताओं के बावजूद BM25 इतना प्रभावी क्यों है?
- BM25 दो अनुभवजन्य रूप से महत्वपूर्ण प्रभावों को पकड़ता है जिन्हें सरल भार चूक जाते हैं: बार-बार पद घटनाओं का घटता प्रतिफल (संतृप्ति) और दस्तावेज़ की लंबाई के लिए सामान्यीकरण की आवश्यकता। ये सुधार, idf-जैसे पद भार के साथ मिलकर, इसे एक उल्लेखनीय रूप से मजबूत रैंकर बनाते हैं।