IR अनुसंधान के लिए परीक्षण संग्रह इतने केंद्रीय क्यों हैं?

दस्तावेज़ों, प्रश्नों और प्रासंगिकता निर्णयों का एक परीक्षण संग्रह विभिन्न प्रणालियों को बिल्कुल एक ही कार्य पर स्कोर करने देता है, जिससे तुलनाएँ पुनरुत्पादनीय और निष्पक्ष हो जाती हैं। पुन: प्रयोज्य संग्रह नई प्रणालियों को हर बार नए निर्णय एकत्र किए बिना मूल्यांकन करने की भी अनुमति देते हैं।

यदि परीक्षण संग्रह मौजूद हैं तो ऑनलाइन मूल्यांकन का उपयोग क्यों करें?

परीक्षण संग्रह निश्चित निर्णयों के विरुद्ध प्रभावशीलता को मापते हैं लेकिन वास्तविक उपयोगकर्ता संतुष्टि, संदर्भ या व्यवहार को पूरी तरह से कैप्चर नहीं कर सकते हैं। A/B परीक्षण और इंटरलीविंग जैसे ऑनलाइन प्रयोग यह देखते हैं कि वास्तविक उपयोगकर्ता कैसे प्रतिक्रिया करते हैं, व्यवहारिक साक्ष्य के साथ ऑफ़लाइन मेट्रिक्स को पूरक करते हैं।

सूचना पुनर्प्राप्ति में मूल्यांकन

सूचना पुनर्प्राप्ति में मूल्यांकन एक ऐसी कार्यप्रणाली है जिसके द्वारा पुनर्प्राप्ति प्रणाली सूचना आवश्यकताओं को कितनी अच्छी तरह पूरा करती है, इसे परीक्षण संग्रहों, प्रासंगिकता निर्णयों और प्रभावशीलता मेट्रिक्स का उपयोग करके मापा जाता है।

PaperMind से विषय खोजेंजल्द हीFind papers & topics

Tools & resources

स्लाइड डाउनलोड करें

Learn & explore

वीडियोजल्द ही

Definition

सूचना पुनर्प्राप्ति मूल्यांकन प्रायोगिक विधियों और मेट्रिक्स का एक समूह है जिसका उपयोग बताई गई सूचना आवश्यकताओं के लिए प्रासंगिक परिणाम वापस करने में एक प्रणाली की प्रभावशीलता को मापने के लिए किया जाता है, जिसमें ऑफ़लाइन परीक्षण-संग्रह प्रयोग और ऑनलाइन उपयोगकर्ता-आधारित प्रयोग शामिल हैं।

Scope

यह क्षेत्र बताता है कि पुनर्प्राप्ति गुणवत्ता को कैसे मापा जाता है: दस्तावेज़ों, प्रश्नों और प्रासंगिकता निर्णयों का क्रैनफ़ील्ड परीक्षण-संग्रह प्रतिमान; परिशुद्धता (precision), रिकॉल (recall), माध्य औसत परिशुद्धता (mean average precision), और सामान्यीकृत रियायती संचयी लाभ (normalized discounted cumulative gain) जैसे प्रभावशीलता मेट्रिक्स; बड़े पैमाने पर निर्णय एकत्र करने के लिए पूलिंग (pooling) और मूल्यांकन विधियाँ; और अध्ययनों तथा नियंत्रित प्रयोगों जैसे A/B परीक्षण और इंटरलीविंग (interleaving) के माध्यम से उपयोगकर्ता-केंद्रित और ऑनलाइन मूल्यांकन। यह प्रभावशीलता को मापने के विज्ञान से संबंधित है, जिसे मापे जा रहे मॉडल और प्रणालियों से अलग माना जाता है।

Sub-topics

Core questions

एक क्रमबद्ध सूची की गुणवत्ता को वस्तुनिष्ठ रूप से कैसे मापा जा सकता है?
एक पुन: प्रयोज्य परीक्षण संग्रह क्या होता है, और प्रासंगिकता का निर्णय कैसे किया जाता है?
कौन से मेट्रिक्स रैंकिंग की उपयोगकर्ता-अनुभूत गुणवत्ता को दर्शाते हैं?
बड़े संग्रहों के लिए प्रासंगिकता के निर्णय किफायती रूप से कैसे एकत्र किए जा सकते हैं?
ऑनलाइन प्रयोग वास्तविक उपयोगकर्ता संतुष्टि को कैसे मापते हैं?

Key concepts

परीक्षण संग्रह
प्रासंगिकता निर्णय (qrels)
परिशुद्धता (precision) और रिकॉल (recall)
माध्य औसत परिशुद्धता (MAP)
सामान्यीकृत रियायती संचयी लाभ (nDCG)
पूलिंग (pooling)
इंटरलीविंग (interleaving) और A/B परीक्षण
परिणामों की सांख्यिकीय सार्थकता

Key theories

क्रैनफ़ील्ड परीक्षण-संग्रह प्रतिमान: पुनर्प्राप्ति प्रणालियों की तुलना एक दस्तावेज़ संग्रह, प्रश्नों के एक सेट और मानवीय प्रासंगिकता निर्णयों को ठीक करके पुनरुत्पादित रूप से की जा सकती है, फिर प्रत्येक प्रणाली के आउटपुट को निर्णयों के विरुद्ध स्कोर किया जा सकता है, जिससे नियंत्रित, दोहराने योग्य प्रयोग संभव होते हैं।
मापने योग्य निर्माण के रूप में प्रभावशीलता: क्रमबद्ध आउटपुट पर मेट्रिक्स को परिभाषित करना, सेट-आधारित परिशुद्धता और रिकॉल से लेकर रैंक-संवेदनशील उपायों जैसे औसत परिशुद्धता और रियायती संचयी लाभ तक, खोज गुणवत्ता की अस्पष्ट धारणा को उन मात्राओं में बदल देता है जिन्हें प्रश्नों में औसत किया जा सकता है और सांख्यिकीय रूप से तुलना की जा सकती है।
ऑफ़लाइन और ऑनलाइन मूल्यांकन पूरकता: परीक्षण-संग्रह प्रयोग पुनरुत्पादकता और नियंत्रण प्रदान करते हैं लेकिन निर्णयित प्रासंगिकता पर निर्भर करते हैं, जबकि A/B परीक्षण और इंटरलीविंग जैसे ऑनलाइन प्रयोग वास्तविक उपयोगकर्ता व्यवहार को मापते हैं, और दोनों मिलकर प्रणाली की गुणवत्ता की एक पूर्ण तस्वीर देते हैं।

Clinical relevance

कठोर मूल्यांकन ही वह है जो क्षेत्र को प्रगति को मापने और प्रणालियों की निष्पक्ष तुलना करने में सक्षम बनाता है; साझा परीक्षण संग्रह और TREC जैसे मूल्यांकन अभियानों ने दशकों की प्रगति को बढ़ावा दिया है। A/B परीक्षण और इंटरलीविंग जैसी ऑनलाइन मूल्यांकन विधियाँ उत्पादन खोज और अनुशंसा प्रणालियों में सुधार के लिए मुख्य उपकरण हैं।

History

व्यवस्थित IR मूल्यांकन 1960 के दशक में क्लेवरडॉन के क्रैनफ़ील्ड प्रयोगों से शुरू हुआ, जिसने परीक्षण-संग्रह प्रतिमान स्थापित किया। NIST द्वारा 1992 में शुरू किया गया टेक्स्ट रिट्रीवल कॉन्फ्रेंस (TREC) ने इस दृष्टिकोण को बड़े संग्रहों और कई कार्यों तक बढ़ाया, मेट्रिक्स और पूलिंग को मानकीकृत किया। नियंत्रित प्रयोगों के माध्यम से ऑनलाइन मूल्यांकन वेब-स्केल इंटरैक्टिव प्रणालियों के साथ बढ़ा।

Key figures

Cyril Cleverdon
Ellen M. Voorhees
Karen Spärck Jones
Mark Sanderson

Seminal works

cleverdon1967
voorhees2005
sanderson2010

Frequently asked questions

IR अनुसंधान के लिए परीक्षण संग्रह इतने केंद्रीय क्यों हैं?: दस्तावेज़ों, प्रश्नों और प्रासंगिकता निर्णयों का एक परीक्षण संग्रह विभिन्न प्रणालियों को बिल्कुल एक ही कार्य पर स्कोर करने देता है, जिससे तुलनाएँ पुनरुत्पादनीय और निष्पक्ष हो जाती हैं। पुन: प्रयोज्य संग्रह नई प्रणालियों को हर बार नए निर्णय एकत्र किए बिना मूल्यांकन करने की भी अनुमति देते हैं।
यदि परीक्षण संग्रह मौजूद हैं तो ऑनलाइन मूल्यांकन का उपयोग क्यों करें?: परीक्षण संग्रह निश्चित निर्णयों के विरुद्ध प्रभावशीलता को मापते हैं लेकिन वास्तविक उपयोगकर्ता संतुष्टि, संदर्भ या व्यवहार को पूरी तरह से कैप्चर नहीं कर सकते हैं। A/B परीक्षण और इंटरलीविंग जैसे ऑनलाइन प्रयोग यह देखते हैं कि वास्तविक उपयोगकर्ता कैसे प्रतिक्रिया करते हैं, व्यवहारिक साक्ष्य के साथ ऑफ़लाइन मेट्रिक्स को पूरक करते हैं।