'qrels' क्या हैं?

Qrels (क्वेरी प्रासंगिकता निर्णय) वे रिकॉर्ड हैं जो एक परीक्षण संग्रह में प्रत्येक विषय के लिए बताते हैं कि कौन से दस्तावेज़ प्रासंगिक माने गए हैं और किस ग्रेड पर। मूल्यांकन उपकरण प्रभावशीलता मेट्रिक्स की गणना के लिए एक प्रणाली के रैंक किए गए आउटपुट की qrels से तुलना करते हैं।

क्या मानवीय निर्णायकों के बीच असहमति परीक्षण संग्रहों को अमान्य करती है?

मूल्यांकनकर्ता व्यक्तिगत दस्तावेज़ों पर असहमत होते हैं, लेकिन अनुसंधान ने बार-बार दिखाया है कि प्रणालियों का सापेक्ष क्रम विभिन्न मूल्यांकनकर्ताओं में स्थिर रहता है। इसलिए, जबकि पूर्ण स्कोर बदलते हैं, कौन सी प्रणाली बेहतर है, इसके बारे में निष्कर्ष सामान्यतः सुदृढ़ होते हैं।

परीक्षण संग्रह और प्रासंगिकता निर्णय

एक परीक्षण संग्रह में एक दस्तावेज़ सेट, प्रश्नों का एक सेट और मानवीय प्रासंगिकता निर्णय शामिल होते हैं ताकि पुनर्प्राप्ति प्रणालियों को पुनरुत्पादनीय रूप से स्कोर किया जा सके और उनकी तुलना की जा सके।

PaperMind से विषय खोजेंजल्द हीFind papers & topics

Tools & resources

स्लाइड डाउनलोड करें

Learn & explore

वीडियोजल्द ही

Definition

एक परीक्षण संग्रह एक निश्चित डेटासेट है जिसमें दस्तावेज़ों का एक संग्रह (corpus), सूचना आवश्यकताओं का वर्णन करने वाले प्रश्नों या विषय विवरणों का एक सेट, और प्रासंगिकता निर्णय (relevance judgments) शामिल होते हैं जो यह निर्दिष्ट करते हैं कि कौन से दस्तावेज़ प्रत्येक विषय के लिए प्रासंगिक हैं, जो एक साथ पुनर्प्राप्ति प्रभावशीलता (retrieval effectiveness) के पुनरुत्पादनीय माप को सक्षम करते हैं।

Scope

यह विषय क्रैनफ़ील्ड प्रतिमान (Cranfield paradigm) के बाद पुन: प्रयोज्य IR परीक्षण संग्रहों के निर्माण और उपयोग को शामिल करता है: दस्तावेज़ संग्रह (document corpus), सूचना आवश्यकताओं को परिभाषित करने वाले विषय विवरण (topic statements), और प्रासंगिकता निर्णय (qrels) जो रिकॉर्ड करते हैं कि कौन से दस्तावेज़ प्रत्येक विषय के लिए प्रासंगिक हैं। यह श्रेणीबद्ध बनाम बाइनरी प्रासंगिकता (graded versus binary relevance), निर्णय संगति (judgment consistency), नई प्रणालियों के लिए संग्रहों की पुन: प्रयोज्यता (reusability of collections) और TREC जैसे बड़े पैमाने के प्रयासों की भूमिका पर प्रकाश डालता है। इसमें निर्णयों से गणना किए गए मेट्रिक्स और उन्हें इकट्ठा करने के लिए उपयोग की जाने वाली पूलिंग प्रक्रियाओं को शामिल नहीं किया गया है, जो कि आसन्न विषय हैं।

Core questions

क्रैनफ़ील्ड-शैली के परीक्षण संग्रह के तीन घटक क्या हैं?
सूचना आवश्यकताओं को विषयों के रूप में कैसे व्यक्त किया जाता है जो प्रणालियों को दिए गए छोटे प्रश्नों से भिन्न होते हैं?
प्रासंगिकता को कैसे परिभाषित और रिकॉर्ड किया जाता है, और श्रेणीबद्ध प्रासंगिकता का उपयोग कब किया जाता है?
मानवीय प्रासंगिकता निर्णय कितने सुसंगत होते हैं, और क्या असंगति तुलनाओं को प्रभावित करती है?
एक परीक्षण संग्रह को उन प्रणालियों के लिए पुन: प्रयोज्य क्या बनाता है जिन्होंने इसमें योगदान नहीं दिया?

Key concepts

दस्तावेज़ संग्रह (document corpus)
विषय / सूचना आवश्यकता विवरण (topic / information need statement)
प्रासंगिकता निर्णय (qrels)
बाइनरी बनाम श्रेणीबद्ध प्रासंगिकता (binary vs. graded relevance)
मूल्यांकनकर्ता समझौता (assessor agreement)
संग्रह पुन: प्रयोज्यता (collection reusability)
TREC परीक्षण संग्रह (TREC test collections)
मूल्यांकन के लिए ग्राउंड ट्रुथ (ground truth for evaluation)

Key theories

क्रैनफ़ील्ड प्रतिमान (Cranfield paradigm): दस्तावेज़ों, प्रश्नों और प्रासंगिकता निर्णयों को ठीक करने से एक नियंत्रित प्रयोगशाला सेटिंग बनती है जिसमें किसी भी प्रणाली के रैंक किए गए आउटपुट को निर्णयों के विरुद्ध स्कोर किया जा सकता है, जिससे पुनर्प्राप्ति प्रयोग पुनरुत्पादनीय और तुलनीय हो जाते हैं।
निर्णायक असहमति के लिए तुलनाओं की सुदृढ़ता (Robustness of comparisons to judge disagreement): हालांकि मानवीय मूल्यांकनकर्ता व्यक्तिगत प्रासंगिकता निर्णयों के बारे में असहमत होते हैं, अध्ययनों से पता चलता है कि एक संग्रह पर प्रणालियों की सापेक्ष रैंकिंग मूल्यांकनकर्ताओं में काफी स्थिर होती है, जो परीक्षण-संग्रह तुलनाओं की वैधता का समर्थन करती है।

Clinical relevance

साझा परीक्षण संग्रह IR अनुसंधान की सामान्य मुद्रा हैं, जो दुनिया भर के शोधकर्ताओं को समान कार्यों पर प्रणालियों की तुलना करने और परिणामों को पुन: उत्पन्न करने की अनुमति देते हैं। TREC, CLEF और NTCIR जैसे मूल्यांकन अभियानों के संग्रहों ने दशकों की प्रगति को आकार दिया है और नई पुनर्प्राप्ति विधियों के लिए मानक बेंचमार्क बने हुए हैं।

History

परीक्षण-संग्रह पद्धति की उत्पत्ति 1960 के दशक में क्लेवरडॉन (Cleverdon) के क्रैनफ़ील्ड प्रयोगों से हुई, जिसमें निश्चित प्रश्नों और निर्णयों का उपयोग करके अनुक्रमण दृष्टिकोणों की तुलना की गई थी। 1992 में TREC के लॉन्च ने इस प्रतिमान को बड़े, यथार्थवादी संग्रहों और कई कार्यों तक बढ़ाया, जिससे मानकीकृत, पुन: प्रयोज्य संग्रह तैयार हुए जो आधुनिक IR मूल्यांकन का आधार हैं।

Key figures

Cyril Cleverdon
Ellen M. Voorhees
Donna Harman

Seminal works

cleverdon1967
voorhees2005

Frequently asked questions

'qrels' क्या हैं?: Qrels (क्वेरी प्रासंगिकता निर्णय) वे रिकॉर्ड हैं जो एक परीक्षण संग्रह में प्रत्येक विषय के लिए बताते हैं कि कौन से दस्तावेज़ प्रासंगिक माने गए हैं और किस ग्रेड पर। मूल्यांकन उपकरण प्रभावशीलता मेट्रिक्स की गणना के लिए एक प्रणाली के रैंक किए गए आउटपुट की qrels से तुलना करते हैं।
क्या मानवीय निर्णायकों के बीच असहमति परीक्षण संग्रहों को अमान्य करती है?: मूल्यांकनकर्ता व्यक्तिगत दस्तावेज़ों पर असहमत होते हैं, लेकिन अनुसंधान ने बार-बार दिखाया है कि प्रणालियों का सापेक्ष क्रम विभिन्न मूल्यांकनकर्ताओं में स्थिर रहता है। इसलिए, जबकि पूर्ण स्कोर बदलते हैं, कौन सी प्रणाली बेहतर है, इसके बारे में निष्कर्ष सामान्यतः सुदृढ़ होते हैं।