आईआर प्रभावशीलता मेट्रिक्स
प्रभावशीलता मेट्रिक्स परिणामों की एक क्रमबद्ध सूची को एक संख्या में बदल देते हैं जो यह दर्शाती है कि यह सूचना की आवश्यकता को कितनी अच्छी तरह पूरा करता है, जिससे प्रणालियों की तुलना की जा सकती है और प्रश्नों में औसत निकाला जा सकता है।
Definition
एक आईआर प्रभावशीलता मीट्रिक एक फ़ंक्शन है जो एक या अधिक प्रश्नों के लिए एक प्रणाली के क्रमबद्ध आउटपुट को, प्रासंगिकता निर्णयों के साथ, पुनर्प्राप्ति गुणवत्ता को मापने वाले स्कोर में मैप करता है, जिसमें विभिन्न मेट्रिक्स रिकॉल, प्रारंभिक परिशुद्धता, या शीर्ष रैंक पर श्रेणीबद्ध लाभ पर जोर देते हैं।
Scope
यह विषय पुनर्प्राप्ति आउटपुट को स्कोर करने के लिए उपयोग किए जाने वाले उपायों को शामिल करता है: सेट-आधारित परिशुद्धता और रिकॉल और उनका एफ-माप संयोजन, रैंक-संवेदनशील उपाय जिनमें k पर परिशुद्धता, औसत परिशुद्धता और माध्य औसत परिशुद्धता, व्युत्क्रम रैंक, और रियायती संचयी लाभ और इसके सामान्यीकृत रूप जैसे लाभ-आधारित उपाय शामिल हैं। यह बताता है कि प्रत्येक मीट्रिक क्या पुरस्कृत करता है, मेट्रिक्स श्रेणीबद्ध प्रासंगिकता और अधूरी निर्णयों को कैसे संभालते हैं, और स्कोर को कैसे एकत्रित किया जाता है और महत्व के लिए परीक्षण किया जाता है। इसमें प्रासंगिकता डेटा की आपूर्ति करने वाले संग्रह और निर्णय शामिल नहीं हैं।
Core questions
- परिशुद्धता और रिकॉल पुनर्प्राप्ति गुणवत्ता के पूरक पहलुओं को कैसे पकड़ते हैं?
- जब उपयोगकर्ता परिणामों को ऊपर से नीचे तक स्कैन करते हैं तो रैंक-संवेदनशील मेट्रिक्स की आवश्यकता क्यों होती है?
- औसत परिशुद्धता एक क्रमबद्ध सूची को एक ही संख्या में कैसे सारांशित करती है?
- nDCG जैसे लाभ-आधारित मेट्रिक्स श्रेणीबद्ध प्रासंगिकता और रैंक छूट का उपयोग कैसे करते हैं?
- अधूरे प्रासंगिकता निर्णयों से मेट्रिक्स कैसे प्रभावित होते हैं?
Key concepts
- परिशुद्धता और रिकॉल
- एफ-माप
- k पर परिशुद्धता
- औसत परिशुद्धता और MAP
- माध्य व्युत्क्रम रैंक (MRR)
- रियायती संचयी लाभ (DCG / nDCG)
- श्रेणीबद्ध प्रासंगिकता
- अधूरे निर्णयों के लिए मजबूत मेट्रिक्स (bpref)
Key theories
- परिशुद्धता, रिकॉल और औसत परिशुद्धता
- परिशुद्धता और रिकॉल पुनर्प्राप्त वस्तुओं के उस अंश को मापते हैं जो प्रासंगिक हैं और प्रासंगिक वस्तुओं के उस अंश को मापते हैं जो पुनर्प्राप्त किए गए हैं; औसत परिशुद्धता एक ही प्रश्न के लिए रिकॉल स्तरों पर परिशुद्धता को एकीकृत करती है, और प्रश्नों पर इसका माध्य (MAP) क्रमबद्ध पुनर्प्राप्ति के लिए एक मानक सारांश है।
- रियायती संचयी लाभ
- लाभ-आधारित मूल्यांकन प्रत्येक परिणाम को उसकी श्रेणीबद्ध प्रासंगिकता के अनुसार एक लाभ प्रदान करता है और निचले रैंकों पर लाभों को छूट देता है, फिर आदर्श रैंकिंग के विरुद्ध सामान्यीकृत करता है, जिससे nDCG प्राप्त होता है, जो अत्यधिक प्रासंगिक वस्तुओं को शीर्ष के पास रखने के लिए पुरस्कृत करता है।
- अधूरे निर्णयों के साथ मूल्यांकन
- जब सभी दस्तावेज़ों का मूल्यांकन नहीं किया जाता है, तो भोले मेट्रिक्स पक्षपाती हो सकते हैं, जो bpref और अनुमानित AP जैसे उपायों को प्रेरित करते हैं जो बड़े या पूल किए गए संग्रहों में अवांछित दस्तावेज़ों के प्रति अधिक मजबूत होते हैं।
Clinical relevance
प्रभावशीलता मेट्रिक्स वह मापदंड हैं जिसके द्वारा पुनर्प्राप्ति अनुसंधान और उद्योग प्रगति को मापते हैं और प्रणालियों के बीच चयन करते हैं। विशेष रूप से nDCG और MAP मूल्यांकन अभियानों और उत्पादन ऑफ़लाइन परीक्षण में नियमित हैं, और मीट्रिक का चुनाव यह निर्धारित करता है कि एक रैंकिंग प्रणाली को किन व्यवहारों का उत्पादन करने के लिए अनुकूलित किया गया है।
History
परिशुद्धता और रिकॉल सबसे शुरुआती आईआर प्रयोगों से संबंधित हैं, और औसत परिशुद्धता TREC एड हॉक मूल्यांकन का मुख्य आधार बन गई। जार्वेलिन और केकलाइन के 2002 के संचयी-लाभ उपायों ने श्रेणीबद्ध-प्रासंगिकता, रैंक-रियायती मूल्यांकन की शुरुआत की, जिससे nDCG प्राप्त हुआ, जो वेब-शैली रैंकिंग के लिए प्रमुख बन गया। अधूरे निर्णयों पर काम ने बड़े संग्रहों के लिए मजबूत मेट्रिक्स का उत्पादन किया।
Key figures
- Kalervo Järvelin
- Jaana Kekäläinen
- Ellen M. Voorhees
- Chris Buckley
Related topics
Seminal works
- manning2008
- jarvelin2002
- buckley2004
Frequently asked questions
- खोज प्रणाली का मूल्यांकन करने के लिए केवल परिशुद्धता ही पर्याप्त क्यों नहीं है?
- परिशुद्धता यह मापती है कि कितने पुनर्प्राप्त परिणाम प्रासंगिक हैं लेकिन यह अनदेखा करती है कि कितने प्रासंगिक दस्तावेज़ छूट गए, जिसे रिकॉल कैप्चर करता है। एक प्रणाली में एक स्पष्ट रूप से प्रासंगिक परिणाम लौटाकर पूर्ण परिशुद्धता हो सकती है जबकि कई अन्य छूट जाते हैं, इसलिए इन दोनों को आमतौर पर एक साथ माना जाता है या रैंक-संवेदनशील उपायों में संयोजित किया जाता है।
- nDCG माध्य औसत परिशुद्धता पर क्या लाभ प्रदान करता है?
- nDCG श्रेणीबद्ध प्रासंगिकता का उपयोग करता है, अत्यधिक प्रासंगिक को मामूली प्रासंगिक परिणामों से अलग करता है, और निचले रैंकों पर लाभों को स्पष्ट रूप से छूट देता है। यह इसे वेब खोज के लिए अच्छी तरह से अनुकूल बनाता है, जहां उपयोगकर्ता शीर्ष परिणामों की सबसे अधिक परवाह करते हैं और प्रासंगिकता केवल हाँ या ना नहीं होती है।