सूचना पुनर्प्राप्ति में मूल्यांकन
सूचना पुनर्प्राप्ति में मूल्यांकन एक ऐसी कार्यप्रणाली है जिसके द्वारा पुनर्प्राप्ति प्रणाली सूचना आवश्यकताओं को कितनी अच्छी तरह पूरा करती है, इसे परीक्षण संग्रहों, प्रासंगिकता निर्णयों और प्रभावशीलता मेट्रिक्स का उपयोग करके मापा जाता है।
Definition
सूचना पुनर्प्राप्ति मूल्यांकन प्रायोगिक विधियों और मेट्रिक्स का एक समूह है जिसका उपयोग बताई गई सूचना आवश्यकताओं के लिए प्रासंगिक परिणाम वापस करने में एक प्रणाली की प्रभावशीलता को मापने के लिए किया जाता है, जिसमें ऑफ़लाइन परीक्षण-संग्रह प्रयोग और ऑनलाइन उपयोगकर्ता-आधारित प्रयोग शामिल हैं।
Scope
यह क्षेत्र बताता है कि पुनर्प्राप्ति गुणवत्ता को कैसे मापा जाता है: दस्तावेज़ों, प्रश्नों और प्रासंगिकता निर्णयों का क्रैनफ़ील्ड परीक्षण-संग्रह प्रतिमान; परिशुद्धता (precision), रिकॉल (recall), माध्य औसत परिशुद्धता (mean average precision), और सामान्यीकृत रियायती संचयी लाभ (normalized discounted cumulative gain) जैसे प्रभावशीलता मेट्रिक्स; बड़े पैमाने पर निर्णय एकत्र करने के लिए पूलिंग (pooling) और मूल्यांकन विधियाँ; और अध्ययनों तथा नियंत्रित प्रयोगों जैसे A/B परीक्षण और इंटरलीविंग (interleaving) के माध्यम से उपयोगकर्ता-केंद्रित और ऑनलाइन मूल्यांकन। यह प्रभावशीलता को मापने के विज्ञान से संबंधित है, जिसे मापे जा रहे मॉडल और प्रणालियों से अलग माना जाता है।
Sub-topics
Core questions
- एक क्रमबद्ध सूची की गुणवत्ता को वस्तुनिष्ठ रूप से कैसे मापा जा सकता है?
- एक पुन: प्रयोज्य परीक्षण संग्रह क्या होता है, और प्रासंगिकता का निर्णय कैसे किया जाता है?
- कौन से मेट्रिक्स रैंकिंग की उपयोगकर्ता-अनुभूत गुणवत्ता को दर्शाते हैं?
- बड़े संग्रहों के लिए प्रासंगिकता के निर्णय किफायती रूप से कैसे एकत्र किए जा सकते हैं?
- ऑनलाइन प्रयोग वास्तविक उपयोगकर्ता संतुष्टि को कैसे मापते हैं?
Key concepts
- परीक्षण संग्रह
- प्रासंगिकता निर्णय (qrels)
- परिशुद्धता (precision) और रिकॉल (recall)
- माध्य औसत परिशुद्धता (MAP)
- सामान्यीकृत रियायती संचयी लाभ (nDCG)
- पूलिंग (pooling)
- इंटरलीविंग (interleaving) और A/B परीक्षण
- परिणामों की सांख्यिकीय सार्थकता
Key theories
- क्रैनफ़ील्ड परीक्षण-संग्रह प्रतिमान
- पुनर्प्राप्ति प्रणालियों की तुलना एक दस्तावेज़ संग्रह, प्रश्नों के एक सेट और मानवीय प्रासंगिकता निर्णयों को ठीक करके पुनरुत्पादित रूप से की जा सकती है, फिर प्रत्येक प्रणाली के आउटपुट को निर्णयों के विरुद्ध स्कोर किया जा सकता है, जिससे नियंत्रित, दोहराने योग्य प्रयोग संभव होते हैं।
- मापने योग्य निर्माण के रूप में प्रभावशीलता
- क्रमबद्ध आउटपुट पर मेट्रिक्स को परिभाषित करना, सेट-आधारित परिशुद्धता और रिकॉल से लेकर रैंक-संवेदनशील उपायों जैसे औसत परिशुद्धता और रियायती संचयी लाभ तक, खोज गुणवत्ता की अस्पष्ट धारणा को उन मात्राओं में बदल देता है जिन्हें प्रश्नों में औसत किया जा सकता है और सांख्यिकीय रूप से तुलना की जा सकती है।
- ऑफ़लाइन और ऑनलाइन मूल्यांकन पूरकता
- परीक्षण-संग्रह प्रयोग पुनरुत्पादकता और नियंत्रण प्रदान करते हैं लेकिन निर्णयित प्रासंगिकता पर निर्भर करते हैं, जबकि A/B परीक्षण और इंटरलीविंग जैसे ऑनलाइन प्रयोग वास्तविक उपयोगकर्ता व्यवहार को मापते हैं, और दोनों मिलकर प्रणाली की गुणवत्ता की एक पूर्ण तस्वीर देते हैं।
Clinical relevance
कठोर मूल्यांकन ही वह है जो क्षेत्र को प्रगति को मापने और प्रणालियों की निष्पक्ष तुलना करने में सक्षम बनाता है; साझा परीक्षण संग्रह और TREC जैसे मूल्यांकन अभियानों ने दशकों की प्रगति को बढ़ावा दिया है। A/B परीक्षण और इंटरलीविंग जैसी ऑनलाइन मूल्यांकन विधियाँ उत्पादन खोज और अनुशंसा प्रणालियों में सुधार के लिए मुख्य उपकरण हैं।
History
व्यवस्थित IR मूल्यांकन 1960 के दशक में क्लेवरडॉन के क्रैनफ़ील्ड प्रयोगों से शुरू हुआ, जिसने परीक्षण-संग्रह प्रतिमान स्थापित किया। NIST द्वारा 1992 में शुरू किया गया टेक्स्ट रिट्रीवल कॉन्फ्रेंस (TREC) ने इस दृष्टिकोण को बड़े संग्रहों और कई कार्यों तक बढ़ाया, मेट्रिक्स और पूलिंग को मानकीकृत किया। नियंत्रित प्रयोगों के माध्यम से ऑनलाइन मूल्यांकन वेब-स्केल इंटरैक्टिव प्रणालियों के साथ बढ़ा।
Key figures
- Cyril Cleverdon
- Ellen M. Voorhees
- Karen Spärck Jones
- Mark Sanderson
Related topics
Seminal works
- cleverdon1967
- voorhees2005
- sanderson2010
Frequently asked questions
- IR अनुसंधान के लिए परीक्षण संग्रह इतने केंद्रीय क्यों हैं?
- दस्तावेज़ों, प्रश्नों और प्रासंगिकता निर्णयों का एक परीक्षण संग्रह विभिन्न प्रणालियों को बिल्कुल एक ही कार्य पर स्कोर करने देता है, जिससे तुलनाएँ पुनरुत्पादनीय और निष्पक्ष हो जाती हैं। पुन: प्रयोज्य संग्रह नई प्रणालियों को हर बार नए निर्णय एकत्र किए बिना मूल्यांकन करने की भी अनुमति देते हैं।
- यदि परीक्षण संग्रह मौजूद हैं तो ऑनलाइन मूल्यांकन का उपयोग क्यों करें?
- परीक्षण संग्रह निश्चित निर्णयों के विरुद्ध प्रभावशीलता को मापते हैं लेकिन वास्तविक उपयोगकर्ता संतुष्टि, संदर्भ या व्यवहार को पूरी तरह से कैप्चर नहीं कर सकते हैं। A/B परीक्षण और इंटरलीविंग जैसे ऑनलाइन प्रयोग यह देखते हैं कि वास्तविक उपयोगकर्ता कैसे प्रतिक्रिया करते हैं, व्यवहारिक साक्ष्य के साथ ऑफ़लाइन मेट्रिक्स को पूरक करते हैं।