खोज प्रणाली का मूल्यांकन करने के लिए केवल परिशुद्धता ही पर्याप्त क्यों नहीं है?

परिशुद्धता यह मापती है कि कितने पुनर्प्राप्त परिणाम प्रासंगिक हैं लेकिन यह अनदेखा करती है कि कितने प्रासंगिक दस्तावेज़ छूट गए, जिसे रिकॉल कैप्चर करता है। एक प्रणाली में एक स्पष्ट रूप से प्रासंगिक परिणाम लौटाकर पूर्ण परिशुद्धता हो सकती है जबकि कई अन्य छूट जाते हैं, इसलिए इन दोनों को आमतौर पर एक साथ माना जाता है या रैंक-संवेदनशील उपायों में संयोजित किया जाता है।

nDCG माध्य औसत परिशुद्धता पर क्या लाभ प्रदान करता है?

nDCG श्रेणीबद्ध प्रासंगिकता का उपयोग करता है, अत्यधिक प्रासंगिक को मामूली प्रासंगिक परिणामों से अलग करता है, और निचले रैंकों पर लाभों को स्पष्ट रूप से छूट देता है। यह इसे वेब खोज के लिए अच्छी तरह से अनुकूल बनाता है, जहां उपयोगकर्ता शीर्ष परिणामों की सबसे अधिक परवाह करते हैं और प्रासंगिकता केवल हाँ या ना नहीं होती है।

आईआर प्रभावशीलता मेट्रिक्स

प्रभावशीलता मेट्रिक्स परिणामों की एक क्रमबद्ध सूची को एक संख्या में बदल देते हैं जो यह दर्शाती है कि यह सूचना की आवश्यकता को कितनी अच्छी तरह पूरा करता है, जिससे प्रणालियों की तुलना की जा सकती है और प्रश्नों में औसत निकाला जा सकता है।

PaperMind से विषय खोजेंजल्द हीFind papers & topics

Tools & resources

स्लाइड डाउनलोड करें

Learn & explore

वीडियोजल्द ही

Definition

एक आईआर प्रभावशीलता मीट्रिक एक फ़ंक्शन है जो एक या अधिक प्रश्नों के लिए एक प्रणाली के क्रमबद्ध आउटपुट को, प्रासंगिकता निर्णयों के साथ, पुनर्प्राप्ति गुणवत्ता को मापने वाले स्कोर में मैप करता है, जिसमें विभिन्न मेट्रिक्स रिकॉल, प्रारंभिक परिशुद्धता, या शीर्ष रैंक पर श्रेणीबद्ध लाभ पर जोर देते हैं।

Scope

यह विषय पुनर्प्राप्ति आउटपुट को स्कोर करने के लिए उपयोग किए जाने वाले उपायों को शामिल करता है: सेट-आधारित परिशुद्धता और रिकॉल और उनका एफ-माप संयोजन, रैंक-संवेदनशील उपाय जिनमें k पर परिशुद्धता, औसत परिशुद्धता और माध्य औसत परिशुद्धता, व्युत्क्रम रैंक, और रियायती संचयी लाभ और इसके सामान्यीकृत रूप जैसे लाभ-आधारित उपाय शामिल हैं। यह बताता है कि प्रत्येक मीट्रिक क्या पुरस्कृत करता है, मेट्रिक्स श्रेणीबद्ध प्रासंगिकता और अधूरी निर्णयों को कैसे संभालते हैं, और स्कोर को कैसे एकत्रित किया जाता है और महत्व के लिए परीक्षण किया जाता है। इसमें प्रासंगिकता डेटा की आपूर्ति करने वाले संग्रह और निर्णय शामिल नहीं हैं।

Core questions

परिशुद्धता और रिकॉल पुनर्प्राप्ति गुणवत्ता के पूरक पहलुओं को कैसे पकड़ते हैं?
जब उपयोगकर्ता परिणामों को ऊपर से नीचे तक स्कैन करते हैं तो रैंक-संवेदनशील मेट्रिक्स की आवश्यकता क्यों होती है?
औसत परिशुद्धता एक क्रमबद्ध सूची को एक ही संख्या में कैसे सारांशित करती है?
nDCG जैसे लाभ-आधारित मेट्रिक्स श्रेणीबद्ध प्रासंगिकता और रैंक छूट का उपयोग कैसे करते हैं?
अधूरे प्रासंगिकता निर्णयों से मेट्रिक्स कैसे प्रभावित होते हैं?

Key concepts

परिशुद्धता और रिकॉल
एफ-माप
k पर परिशुद्धता
औसत परिशुद्धता और MAP
माध्य व्युत्क्रम रैंक (MRR)
रियायती संचयी लाभ (DCG / nDCG)
श्रेणीबद्ध प्रासंगिकता
अधूरे निर्णयों के लिए मजबूत मेट्रिक्स (bpref)

Key theories

परिशुद्धता, रिकॉल और औसत परिशुद्धता: परिशुद्धता और रिकॉल पुनर्प्राप्त वस्तुओं के उस अंश को मापते हैं जो प्रासंगिक हैं और प्रासंगिक वस्तुओं के उस अंश को मापते हैं जो पुनर्प्राप्त किए गए हैं; औसत परिशुद्धता एक ही प्रश्न के लिए रिकॉल स्तरों पर परिशुद्धता को एकीकृत करती है, और प्रश्नों पर इसका माध्य (MAP) क्रमबद्ध पुनर्प्राप्ति के लिए एक मानक सारांश है।
रियायती संचयी लाभ: लाभ-आधारित मूल्यांकन प्रत्येक परिणाम को उसकी श्रेणीबद्ध प्रासंगिकता के अनुसार एक लाभ प्रदान करता है और निचले रैंकों पर लाभों को छूट देता है, फिर आदर्श रैंकिंग के विरुद्ध सामान्यीकृत करता है, जिससे nDCG प्राप्त होता है, जो अत्यधिक प्रासंगिक वस्तुओं को शीर्ष के पास रखने के लिए पुरस्कृत करता है।
अधूरे निर्णयों के साथ मूल्यांकन: जब सभी दस्तावेज़ों का मूल्यांकन नहीं किया जाता है, तो भोले मेट्रिक्स पक्षपाती हो सकते हैं, जो bpref और अनुमानित AP जैसे उपायों को प्रेरित करते हैं जो बड़े या पूल किए गए संग्रहों में अवांछित दस्तावेज़ों के प्रति अधिक मजबूत होते हैं।

Clinical relevance

प्रभावशीलता मेट्रिक्स वह मापदंड हैं जिसके द्वारा पुनर्प्राप्ति अनुसंधान और उद्योग प्रगति को मापते हैं और प्रणालियों के बीच चयन करते हैं। विशेष रूप से nDCG और MAP मूल्यांकन अभियानों और उत्पादन ऑफ़लाइन परीक्षण में नियमित हैं, और मीट्रिक का चुनाव यह निर्धारित करता है कि एक रैंकिंग प्रणाली को किन व्यवहारों का उत्पादन करने के लिए अनुकूलित किया गया है।

History

परिशुद्धता और रिकॉल सबसे शुरुआती आईआर प्रयोगों से संबंधित हैं, और औसत परिशुद्धता TREC एड हॉक मूल्यांकन का मुख्य आधार बन गई। जार्वेलिन और केकलाइन के 2002 के संचयी-लाभ उपायों ने श्रेणीबद्ध-प्रासंगिकता, रैंक-रियायती मूल्यांकन की शुरुआत की, जिससे nDCG प्राप्त हुआ, जो वेब-शैली रैंकिंग के लिए प्रमुख बन गया। अधूरे निर्णयों पर काम ने बड़े संग्रहों के लिए मजबूत मेट्रिक्स का उत्पादन किया।

Key figures

Kalervo Järvelin
Jaana Kekäläinen
Ellen M. Voorhees
Chris Buckley

Seminal works

manning2008
jarvelin2002
buckley2004

Frequently asked questions

खोज प्रणाली का मूल्यांकन करने के लिए केवल परिशुद्धता ही पर्याप्त क्यों नहीं है?: परिशुद्धता यह मापती है कि कितने पुनर्प्राप्त परिणाम प्रासंगिक हैं लेकिन यह अनदेखा करती है कि कितने प्रासंगिक दस्तावेज़ छूट गए, जिसे रिकॉल कैप्चर करता है। एक प्रणाली में एक स्पष्ट रूप से प्रासंगिक परिणाम लौटाकर पूर्ण परिशुद्धता हो सकती है जबकि कई अन्य छूट जाते हैं, इसलिए इन दोनों को आमतौर पर एक साथ माना जाता है या रैंक-संवेदनशील उपायों में संयोजित किया जाता है।
nDCG माध्य औसत परिशुद्धता पर क्या लाभ प्रदान करता है?: nDCG श्रेणीबद्ध प्रासंगिकता का उपयोग करता है, अत्यधिक प्रासंगिक को मामूली प्रासंगिक परिणामों से अलग करता है, और निचले रैंकों पर लाभों को स्पष्ट रूप से छूट देता है। यह इसे वेब खोज के लिए अच्छी तरह से अनुकूल बनाता है, जहां उपयोगकर्ता शीर्ष परिणामों की सबसे अधिक परवाह करते हैं और प्रासंगिकता केवल हाँ या ना नहीं होती है।