पूलिंग और प्रासंगिकता मूल्यांकन
पूलिंग वह विधि है जो बड़े पैमाने पर आईआर (सूचना पुनर्प्राप्ति) मूल्यांकन को व्यवहार्य बनाती है, जिसमें संग्रह के प्रत्येक दस्तावेज़ के बजाय केवल उन दस्तावेज़ों का मूल्यांकन किया जाता है जिन्हें भाग लेने वाले सिस्टम उच्च रैंक देते हैं।
Definition
पूलिंग प्रासंगिकता मूल्यांकन के लिए एक नमूनाकरण रणनीति है जिसमें योगदान देने वाले पुनर्प्राप्ति रन (retrieval runs) के एक सेट से उच्चतम-रैंक वाले दस्तावेज़ों को, डुप्लिकेट हटाकर, एक पूल में मिलाया जाता है जिसका मानव मूल्यांकनकर्ता मूल्यांकन करते हैं, जिसमें पूल के बाहर के दस्तावेज़ों को पारंपरिक रूप से अप्रासंगिक माना जाता है।
Scope
यह विषय बताता है कि बड़े संग्रहों के लिए प्रासंगिकता निर्णय (relevance judgments) कुशलता से कैसे एकत्र किए जाते हैं, मुख्य रूप से TREC और इसी तरह के अभियानों में उपयोग की जाने वाली पूलिंग विधि, जहाँ कई प्रणालियों से शीर्ष-रैंक वाले दस्तावेज़ों को एक पूल में मिलाया जाता है जिसका मूल्यांकन मूल्यांकनकर्ता करते हैं। यह पूल की गहराई, अनिर्णित दस्तावेज़ों को अप्रासंगिक मानने, पूल्ड संग्रहों की पुन: प्रयोज्यता और संभावित पूर्वाग्रह, तथा मूल्यांकनकर्ता के प्रयास और समझौते को संबोधित करता है। इसमें बाद में गणना किए गए मेट्रिक्स और संग्रह की परिभाषा शामिल नहीं है।
Core questions
- पूलिंग उन दस्तावेज़ों की संख्या को कैसे कम करती है जिनका मूल्यांकन किया जाना चाहिए?
- पूल की गहराई कैसे चुनी जाती है, और यह प्रासंगिक दस्तावेज़ों के कवरेज को कैसे प्रभावित करती है?
- अनिर्णित दस्तावेज़ों को आमतौर पर अप्रासंगिक क्यों माना जाता है, और यह क्या पूर्वाग्रह पैदा कर सकता है?
- पूल में योगदान न करने वाले सिस्टम के लिए पूल्ड संग्रह कितने पुन: प्रयोज्य हैं?
- मूल्यांकनकर्ता के प्रयास, समझौते और गुणवत्ता का प्रबंधन कैसे किया जाता है?
Key concepts
- पूलिंग विधि
- पूल की गहराई
- योगदान देने वाले रन
- अनिर्णित-को-अप्रासंगिक-मानने की धारणा
- पूल पूर्वाग्रह और पुन: प्रयोज्यता
- मूल्यांकनकर्ता समझौता
- अधूरी प्रासंगिकता जानकारी
- क्राउडसोर्स्ड प्रासंगिकता मूल्यांकन
Key theories
- मापनीय मूल्यांकन के लिए पूलिंग
- कई विविध प्रणालियों से शीर्ष-रैंक वाले दस्तावेज़ों के संघ का ही मूल्यांकन करके, पूलिंग बड़े संग्रहों का मूल्यांकन करना व्यावहारिक बनाती है, जबकि अभी भी अधिकांश प्रासंगिक दस्तावेज़ों को ढूंढती है जिन्हें कोई भी उचित प्रणाली सामने लाएगी।
- विश्वसनीयता और पुन: प्रयोज्यता संबंधी चिंताएँ
- पूलिंग केवल भविष्य की प्रणालियों द्वारा पाए गए प्रासंगिक दस्तावेज़ों का कम प्रतिनिधित्व कर सकती है, जिससे पूर्वाग्रह और पुन: प्रयोज्यता के बारे में प्रश्न उठते हैं जो गहरे पूलों, विविध योगदानकर्ताओं और अधूरे निर्णयों के लिए मजबूत मेट्रिक्स को प्रेरित करते हैं।
Clinical relevance
पूलिंग ही साझा, पुन: प्रयोज्य परीक्षण संग्रहों को किफायती बनाती है, और यह दशकों के बेंचमार्क परिणामों के पीछे के निर्णयों का आधार है। पुराने संग्रहों का उपयोग करके नई विधियों, विशेष रूप से तंत्रिका प्रणालियों (neural systems) का मूल्यांकन करते समय इसकी मान्यताओं को समझना महत्वपूर्ण है, जो ऐसे प्रासंगिक दस्तावेज़ों को सामने ला सकती हैं जिनका मूल पूलों ने कभी मूल्यांकन नहीं किया था।
History
बड़े संग्रहों का मूल्यांकन करने को सुव्यवस्थित बनाने के लिए पूलिंग को 1992 में TREC की शुरुआत से ही अपनाया गया था। ज़ोबेल के 1998 के विश्लेषण ने पूल्ड संग्रहों की विश्वसनीयता और पुन: प्रयोज्यता की जांच की, और अधूरे निर्णयों पर बाद के काम ने मेट्रिक्स और गहरे या अधिक स्मार्ट पूलिंग रणनीतियों का उत्पादन किया ताकि संग्रह और सिस्टम आबादी के विकसित होने के साथ पूर्वाग्रह को कम किया जा सके।
Key figures
- Ellen M. Voorhees
- Justin Zobel
- Chris Buckley
Related topics
Seminal works
- voorhees2005
- zobel1998
- buckley2004
Frequently asked questions
- संग्रह के प्रत्येक दस्तावेज़ का मूल्यांकन क्यों नहीं किया जाता है?
- बड़े संग्रहों में लाखों दस्तावेज़ होते हैं, इसलिए प्रत्येक विषय के लिए उन सभी का मूल्यांकन करना अव्यावहारिक है। पूलिंग केवल उन दस्तावेज़ों का मूल्यांकन करती है जिन्हें योगदान देने वाले सिस्टम उच्च रैंक देते हैं, जो मूल्यांकन के प्रयास को प्रबंधनीय रखते हुए अधिकांश प्रासंगिक दस्तावेज़ों को कैप्चर करता है।
- अनिर्णित दस्तावेज़ों को अप्रासंगिक मानने का क्या जोखिम है?
- एक बाद की प्रणाली ऐसे प्रासंगिक दस्तावेज़ों को पुनः प्राप्त कर सकती है जो कभी पूल में नहीं थे और इसलिए उन्हें अप्रासंगिक माना गया, जिससे उसका मापा गया स्कोर अनुचित रूप से कम हो गया। यह पूल पूर्वाग्रह ही कारण है कि संग्रहों का पुन: उपयोग करते समय गहरे, अधिक विविध पूल और निर्णय-मजबूत मेट्रिक्स का उपयोग किया जाता है।