ScholarGate
सहायक

सूचना पुनर्प्राप्ति में मूल्यांकन

सूचना पुनर्प्राप्ति में मूल्यांकन एक ऐसी कार्यप्रणाली है जिसके द्वारा पुनर्प्राप्ति प्रणाली सूचना आवश्यकताओं को कितनी अच्छी तरह पूरा करती है, इसे परीक्षण संग्रहों, प्रासंगिकता निर्णयों और प्रभावशीलता मेट्रिक्स का उपयोग करके मापा जाता है।

PaperMind से विषय खोजेंजल्द हीFind papers & topics
Tools & resources
स्लाइड डाउनलोड करें
Learn & explore
वीडियोजल्द ही

Definition

सूचना पुनर्प्राप्ति मूल्यांकन प्रायोगिक विधियों और मेट्रिक्स का एक समूह है जिसका उपयोग बताई गई सूचना आवश्यकताओं के लिए प्रासंगिक परिणाम वापस करने में एक प्रणाली की प्रभावशीलता को मापने के लिए किया जाता है, जिसमें ऑफ़लाइन परीक्षण-संग्रह प्रयोग और ऑनलाइन उपयोगकर्ता-आधारित प्रयोग शामिल हैं।

Scope

यह क्षेत्र बताता है कि पुनर्प्राप्ति गुणवत्ता को कैसे मापा जाता है: दस्तावेज़ों, प्रश्नों और प्रासंगिकता निर्णयों का क्रैनफ़ील्ड परीक्षण-संग्रह प्रतिमान; परिशुद्धता (precision), रिकॉल (recall), माध्य औसत परिशुद्धता (mean average precision), और सामान्यीकृत रियायती संचयी लाभ (normalized discounted cumulative gain) जैसे प्रभावशीलता मेट्रिक्स; बड़े पैमाने पर निर्णय एकत्र करने के लिए पूलिंग (pooling) और मूल्यांकन विधियाँ; और अध्ययनों तथा नियंत्रित प्रयोगों जैसे A/B परीक्षण और इंटरलीविंग (interleaving) के माध्यम से उपयोगकर्ता-केंद्रित और ऑनलाइन मूल्यांकन। यह प्रभावशीलता को मापने के विज्ञान से संबंधित है, जिसे मापे जा रहे मॉडल और प्रणालियों से अलग माना जाता है।

Sub-topics

Core questions

  • एक क्रमबद्ध सूची की गुणवत्ता को वस्तुनिष्ठ रूप से कैसे मापा जा सकता है?
  • एक पुन: प्रयोज्य परीक्षण संग्रह क्या होता है, और प्रासंगिकता का निर्णय कैसे किया जाता है?
  • कौन से मेट्रिक्स रैंकिंग की उपयोगकर्ता-अनुभूत गुणवत्ता को दर्शाते हैं?
  • बड़े संग्रहों के लिए प्रासंगिकता के निर्णय किफायती रूप से कैसे एकत्र किए जा सकते हैं?
  • ऑनलाइन प्रयोग वास्तविक उपयोगकर्ता संतुष्टि को कैसे मापते हैं?

Key concepts

  • परीक्षण संग्रह
  • प्रासंगिकता निर्णय (qrels)
  • परिशुद्धता (precision) और रिकॉल (recall)
  • माध्य औसत परिशुद्धता (MAP)
  • सामान्यीकृत रियायती संचयी लाभ (nDCG)
  • पूलिंग (pooling)
  • इंटरलीविंग (interleaving) और A/B परीक्षण
  • परिणामों की सांख्यिकीय सार्थकता

Key theories

क्रैनफ़ील्ड परीक्षण-संग्रह प्रतिमान
पुनर्प्राप्ति प्रणालियों की तुलना एक दस्तावेज़ संग्रह, प्रश्नों के एक सेट और मानवीय प्रासंगिकता निर्णयों को ठीक करके पुनरुत्पादित रूप से की जा सकती है, फिर प्रत्येक प्रणाली के आउटपुट को निर्णयों के विरुद्ध स्कोर किया जा सकता है, जिससे नियंत्रित, दोहराने योग्य प्रयोग संभव होते हैं।
मापने योग्य निर्माण के रूप में प्रभावशीलता
क्रमबद्ध आउटपुट पर मेट्रिक्स को परिभाषित करना, सेट-आधारित परिशुद्धता और रिकॉल से लेकर रैंक-संवेदनशील उपायों जैसे औसत परिशुद्धता और रियायती संचयी लाभ तक, खोज गुणवत्ता की अस्पष्ट धारणा को उन मात्राओं में बदल देता है जिन्हें प्रश्नों में औसत किया जा सकता है और सांख्यिकीय रूप से तुलना की जा सकती है।
ऑफ़लाइन और ऑनलाइन मूल्यांकन पूरकता
परीक्षण-संग्रह प्रयोग पुनरुत्पादकता और नियंत्रण प्रदान करते हैं लेकिन निर्णयित प्रासंगिकता पर निर्भर करते हैं, जबकि A/B परीक्षण और इंटरलीविंग जैसे ऑनलाइन प्रयोग वास्तविक उपयोगकर्ता व्यवहार को मापते हैं, और दोनों मिलकर प्रणाली की गुणवत्ता की एक पूर्ण तस्वीर देते हैं।

Clinical relevance

कठोर मूल्यांकन ही वह है जो क्षेत्र को प्रगति को मापने और प्रणालियों की निष्पक्ष तुलना करने में सक्षम बनाता है; साझा परीक्षण संग्रह और TREC जैसे मूल्यांकन अभियानों ने दशकों की प्रगति को बढ़ावा दिया है। A/B परीक्षण और इंटरलीविंग जैसी ऑनलाइन मूल्यांकन विधियाँ उत्पादन खोज और अनुशंसा प्रणालियों में सुधार के लिए मुख्य उपकरण हैं।

History

व्यवस्थित IR मूल्यांकन 1960 के दशक में क्लेवरडॉन के क्रैनफ़ील्ड प्रयोगों से शुरू हुआ, जिसने परीक्षण-संग्रह प्रतिमान स्थापित किया। NIST द्वारा 1992 में शुरू किया गया टेक्स्ट रिट्रीवल कॉन्फ्रेंस (TREC) ने इस दृष्टिकोण को बड़े संग्रहों और कई कार्यों तक बढ़ाया, मेट्रिक्स और पूलिंग को मानकीकृत किया। नियंत्रित प्रयोगों के माध्यम से ऑनलाइन मूल्यांकन वेब-स्केल इंटरैक्टिव प्रणालियों के साथ बढ़ा।

Key figures

  • Cyril Cleverdon
  • Ellen M. Voorhees
  • Karen Spärck Jones
  • Mark Sanderson

Related topics

Seminal works

  • cleverdon1967
  • voorhees2005
  • sanderson2010

Frequently asked questions

IR अनुसंधान के लिए परीक्षण संग्रह इतने केंद्रीय क्यों हैं?
दस्तावेज़ों, प्रश्नों और प्रासंगिकता निर्णयों का एक परीक्षण संग्रह विभिन्न प्रणालियों को बिल्कुल एक ही कार्य पर स्कोर करने देता है, जिससे तुलनाएँ पुनरुत्पादनीय और निष्पक्ष हो जाती हैं। पुन: प्रयोज्य संग्रह नई प्रणालियों को हर बार नए निर्णय एकत्र किए बिना मूल्यांकन करने की भी अनुमति देते हैं।
यदि परीक्षण संग्रह मौजूद हैं तो ऑनलाइन मूल्यांकन का उपयोग क्यों करें?
परीक्षण संग्रह निश्चित निर्णयों के विरुद्ध प्रभावशीलता को मापते हैं लेकिन वास्तविक उपयोगकर्ता संतुष्टि, संदर्भ या व्यवहार को पूरी तरह से कैप्चर नहीं कर सकते हैं। A/B परीक्षण और इंटरलीविंग जैसे ऑनलाइन प्रयोग यह देखते हैं कि वास्तविक उपयोगकर्ता कैसे प्रतिक्रिया करते हैं, व्यवहारिक साक्ष्य के साथ ऑफ़लाइन मेट्रिक्स को पूरक करते हैं।

Methods for this concept

Related concepts