ScholarGate
सहायक

परीक्षण संग्रह और प्रासंगिकता निर्णय

एक परीक्षण संग्रह में एक दस्तावेज़ सेट, प्रश्नों का एक सेट और मानवीय प्रासंगिकता निर्णय शामिल होते हैं ताकि पुनर्प्राप्ति प्रणालियों को पुनरुत्पादनीय रूप से स्कोर किया जा सके और उनकी तुलना की जा सके।

PaperMind से विषय खोजेंजल्द हीFind papers & topics
Tools & resources
स्लाइड डाउनलोड करें
Learn & explore
वीडियोजल्द ही

Definition

एक परीक्षण संग्रह एक निश्चित डेटासेट है जिसमें दस्तावेज़ों का एक संग्रह (corpus), सूचना आवश्यकताओं का वर्णन करने वाले प्रश्नों या विषय विवरणों का एक सेट, और प्रासंगिकता निर्णय (relevance judgments) शामिल होते हैं जो यह निर्दिष्ट करते हैं कि कौन से दस्तावेज़ प्रत्येक विषय के लिए प्रासंगिक हैं, जो एक साथ पुनर्प्राप्ति प्रभावशीलता (retrieval effectiveness) के पुनरुत्पादनीय माप को सक्षम करते हैं।

Scope

यह विषय क्रैनफ़ील्ड प्रतिमान (Cranfield paradigm) के बाद पुन: प्रयोज्य IR परीक्षण संग्रहों के निर्माण और उपयोग को शामिल करता है: दस्तावेज़ संग्रह (document corpus), सूचना आवश्यकताओं को परिभाषित करने वाले विषय विवरण (topic statements), और प्रासंगिकता निर्णय (qrels) जो रिकॉर्ड करते हैं कि कौन से दस्तावेज़ प्रत्येक विषय के लिए प्रासंगिक हैं। यह श्रेणीबद्ध बनाम बाइनरी प्रासंगिकता (graded versus binary relevance), निर्णय संगति (judgment consistency), नई प्रणालियों के लिए संग्रहों की पुन: प्रयोज्यता (reusability of collections) और TREC जैसे बड़े पैमाने के प्रयासों की भूमिका पर प्रकाश डालता है। इसमें निर्णयों से गणना किए गए मेट्रिक्स और उन्हें इकट्ठा करने के लिए उपयोग की जाने वाली पूलिंग प्रक्रियाओं को शामिल नहीं किया गया है, जो कि आसन्न विषय हैं।

Core questions

  • क्रैनफ़ील्ड-शैली के परीक्षण संग्रह के तीन घटक क्या हैं?
  • सूचना आवश्यकताओं को विषयों के रूप में कैसे व्यक्त किया जाता है जो प्रणालियों को दिए गए छोटे प्रश्नों से भिन्न होते हैं?
  • प्रासंगिकता को कैसे परिभाषित और रिकॉर्ड किया जाता है, और श्रेणीबद्ध प्रासंगिकता का उपयोग कब किया जाता है?
  • मानवीय प्रासंगिकता निर्णय कितने सुसंगत होते हैं, और क्या असंगति तुलनाओं को प्रभावित करती है?
  • एक परीक्षण संग्रह को उन प्रणालियों के लिए पुन: प्रयोज्य क्या बनाता है जिन्होंने इसमें योगदान नहीं दिया?

Key concepts

  • दस्तावेज़ संग्रह (document corpus)
  • विषय / सूचना आवश्यकता विवरण (topic / information need statement)
  • प्रासंगिकता निर्णय (qrels)
  • बाइनरी बनाम श्रेणीबद्ध प्रासंगिकता (binary vs. graded relevance)
  • मूल्यांकनकर्ता समझौता (assessor agreement)
  • संग्रह पुन: प्रयोज्यता (collection reusability)
  • TREC परीक्षण संग्रह (TREC test collections)
  • मूल्यांकन के लिए ग्राउंड ट्रुथ (ground truth for evaluation)

Key theories

क्रैनफ़ील्ड प्रतिमान (Cranfield paradigm)
दस्तावेज़ों, प्रश्नों और प्रासंगिकता निर्णयों को ठीक करने से एक नियंत्रित प्रयोगशाला सेटिंग बनती है जिसमें किसी भी प्रणाली के रैंक किए गए आउटपुट को निर्णयों के विरुद्ध स्कोर किया जा सकता है, जिससे पुनर्प्राप्ति प्रयोग पुनरुत्पादनीय और तुलनीय हो जाते हैं।
निर्णायक असहमति के लिए तुलनाओं की सुदृढ़ता (Robustness of comparisons to judge disagreement)
हालांकि मानवीय मूल्यांकनकर्ता व्यक्तिगत प्रासंगिकता निर्णयों के बारे में असहमत होते हैं, अध्ययनों से पता चलता है कि एक संग्रह पर प्रणालियों की सापेक्ष रैंकिंग मूल्यांकनकर्ताओं में काफी स्थिर होती है, जो परीक्षण-संग्रह तुलनाओं की वैधता का समर्थन करती है।

Clinical relevance

साझा परीक्षण संग्रह IR अनुसंधान की सामान्य मुद्रा हैं, जो दुनिया भर के शोधकर्ताओं को समान कार्यों पर प्रणालियों की तुलना करने और परिणामों को पुन: उत्पन्न करने की अनुमति देते हैं। TREC, CLEF और NTCIR जैसे मूल्यांकन अभियानों के संग्रहों ने दशकों की प्रगति को आकार दिया है और नई पुनर्प्राप्ति विधियों के लिए मानक बेंचमार्क बने हुए हैं।

History

परीक्षण-संग्रह पद्धति की उत्पत्ति 1960 के दशक में क्लेवरडॉन (Cleverdon) के क्रैनफ़ील्ड प्रयोगों से हुई, जिसमें निश्चित प्रश्नों और निर्णयों का उपयोग करके अनुक्रमण दृष्टिकोणों की तुलना की गई थी। 1992 में TREC के लॉन्च ने इस प्रतिमान को बड़े, यथार्थवादी संग्रहों और कई कार्यों तक बढ़ाया, जिससे मानकीकृत, पुन: प्रयोज्य संग्रह तैयार हुए जो आधुनिक IR मूल्यांकन का आधार हैं।

Key figures

  • Cyril Cleverdon
  • Ellen M. Voorhees
  • Donna Harman

Related topics

Seminal works

  • cleverdon1967
  • voorhees2005

Frequently asked questions

'qrels' क्या हैं?
Qrels (क्वेरी प्रासंगिकता निर्णय) वे रिकॉर्ड हैं जो एक परीक्षण संग्रह में प्रत्येक विषय के लिए बताते हैं कि कौन से दस्तावेज़ प्रासंगिक माने गए हैं और किस ग्रेड पर। मूल्यांकन उपकरण प्रभावशीलता मेट्रिक्स की गणना के लिए एक प्रणाली के रैंक किए गए आउटपुट की qrels से तुलना करते हैं।
क्या मानवीय निर्णायकों के बीच असहमति परीक्षण संग्रहों को अमान्य करती है?
मूल्यांकनकर्ता व्यक्तिगत दस्तावेज़ों पर असहमत होते हैं, लेकिन अनुसंधान ने बार-बार दिखाया है कि प्रणालियों का सापेक्ष क्रम विभिन्न मूल्यांकनकर्ताओं में स्थिर रहता है। इसलिए, जबकि पूर्ण स्कोर बदलते हैं, कौन सी प्रणाली बेहतर है, इसके बारे में निष्कर्ष सामान्यतः सुदृढ़ होते हैं।

Methods for this concept

Related concepts