सिफारिशकर्ता का मूल्यांकन करने के लिए सटीकता पर्याप्त क्यों नहीं है?

एक सिफारिशकर्ता सटीक हो सकता है फिर भी अनुपयोगी हो सकता है, उदाहरण के लिए उन वस्तुओं का सुझाव देकर जिन्हें उपयोगकर्ता पहले से जानता है या लगभग-डुप्लिकेट। विविधता, नवीनता, आकस्मिकता और कवरेज जैसे गुण उपयोगिता के उन पहलुओं को पकड़ते हैं जिन्हें सटीकता याद करती है, इसलिए अच्छा मूल्यांकन कई आयामों पर विचार करता है।

सिफारिशकर्ता मूल्यांकन में डेटा विभाजन मुश्किल क्यों है?

सिफारिश डेटा समय-क्रमबद्ध होता है और लोकप्रिय वस्तुओं की ओर झुका होता है, इसलिए भोले यादृच्छिक विभाजन भविष्य की जानकारी को लीक कर सकते हैं या केवल लोकप्रिय वस्तुओं की सिफारिश करने के लिए पुरस्कृत कर सकते हैं। वास्तविक प्रदर्शन के ऑफ़लाइन परिणामों को पूर्वानुमानित बनाने के लिए सावधानीपूर्वक समय-आधारित विभाजन और पूर्वाग्रह-जागरूक मेट्रिक्स की आवश्यकता होती है।

सिफारिशकर्ता मूल्यांकन

सिफारिशकर्ता मूल्यांकन यह मापता है कि सिफारिशें कितनी अच्छी हैं, जिसमें पूर्वानुमानित सटीकता, रैंकिंग गुणवत्ता और विविधता, नवीनता और कवरेज जैसे सटीकता से परे के गुण शामिल हैं।

PaperMind से विषय खोजेंजल्द हीFind papers & topics

Tools & resources

स्लाइड डाउनलोड करें

Learn & explore

वीडियोजल्द ही

Definition

सिफारिशकर्ता मूल्यांकन एक सिफारिशकर्ता प्रणाली की गुणवत्ता का आकलन करने के लिए कार्यप्रणालियों और मेट्रिक्स का एक समूह है, जिसमें रोके गए डेटा पर गणना की गई ऑफ़लाइन सटीकता और रैंकिंग माप, सिफारिश सेट के सटीकता से परे के गुण, और उपयोगकर्ता-केंद्रित और ऑनलाइन प्रयोग शामिल हैं।

Scope

यह विषय सिफारिशकर्ता प्रणालियों का आकलन कैसे किया जाता है, इसे शामिल करता है: रोके गए इंटरैक्शन डेटा का उपयोग करके ऑफ़लाइन प्रयोग, रेटिंग पूर्वानुमान और शीर्ष-N रैंकिंग के लिए सटीकता माप, और विविधता, नवीनता, आकस्मिकता और कैटलॉग कवरेज सहित सटीकता से परे के मानदंड, साथ ही उपयोगकर्ता अध्ययन और ऑनलाइन प्रयोग। यह सिफारिश से संबंधित प्रायोगिक डिजाइन की कमियों को संबोधित करता है, जैसे डेटा विभाजन और लोकप्रियता पूर्वाग्रह, और सूचना पहुंच में उपयोग की जाने वाली व्यापक ऑनलाइन-मूल्यांकन विधियों से जुड़ता है।

Core questions

रेटिंग पूर्वानुमान बनाम शीर्ष-N रैंकिंग के लिए सिफारिश की गुणवत्ता को कैसे मापा जाता है?
सिफारिशकर्ता का न्याय करने के लिए अकेले सटीकता मेट्रिक्स अपर्याप्त क्यों हैं?
विविधता, नवीनता, आकस्मिकता और कवरेज को कैसे मापा जाता है?
रिसाव और लोकप्रियता पूर्वाग्रह से बचने के लिए इंटरैक्शन डेटा को कैसे विभाजित किया जाना चाहिए?
ऑफ़लाइन, उपयोगकर्ता-अध्ययन और ऑनलाइन मूल्यांकन एक-दूसरे के पूरक कैसे हैं?

Key concepts

रेटिंग-पूर्वानुमान सटीकता (MAE, RMSE)
शीर्ष-N रैंकिंग मेट्रिक्स (सटीकता, रिकॉल, nDCG)
विविधता और नवीनता
आकस्मिकता
कैटलॉग कवरेज
ऑफ़लाइन बनाम ऑनलाइन मूल्यांकन
डेटा विभाजन और रिसाव
लोकप्रियता पूर्वाग्रह

Key theories

सटीकता और रैंकिंग मूल्यांकन: सिफारिशकर्ताओं को या तो इस आधार पर स्कोर किया जाता है कि वे त्रुटि मापों का उपयोग करके रेटिंग का कितनी अच्छी तरह से अनुमान लगाते हैं, या वे वस्तुओं को कितनी अच्छी तरह से रैंक करते हैं, सटीकता, रिकॉल और सामान्यीकृत रियायती संचयी लाभ जैसे शीर्ष-N मापों का उपयोग करके, बाद वाला इस बात से बेहतर मेल खाता है कि सिफारिशों का उपभोग कैसे किया जाता है।
सटीकता से परे मूल्यांकन: क्योंकि सटीक लेकिन अनावश्यक या स्पष्ट सिफारिशें उपयोगकर्ताओं को संतुष्ट नहीं कर सकती हैं, मूल्यांकन में विविधता, नवीनता, आकस्मिकता और कवरेज भी शामिल है, यह पहचानते हुए कि सिफारिश की गुणवत्ता बहुआयामी है।

Clinical relevance

ध्वनि मूल्यांकन यह निर्धारित करता है कि कौन से सिफारिश परिवर्तन तैनात किए जाते हैं और गलत उद्देश्य को अनुकूलित करने से बचाता है। विविधता और नवीनता जैसी सटीकता से परे की चिंताएं सीधे उपयोगकर्ता संतुष्टि और जुड़ाव को प्रभावित करती हैं, और फिल्टर बुलबुले और सिफारिश में निष्पक्षता के व्यापक मुद्दों से जुड़ती हैं।

History

हर्लॉकर और सहयोगियों के 2004 के लेख ने सहयोगी-फ़िल्टरिंग सिफारिशकर्ताओं के मूल्यांकन के लिए एक कठोर ढांचा स्थापित किया, जिसमें कार्यों और मेट्रिक्स को स्पष्ट किया गया। नेटफ्लिक्स पुरस्कार ने RMSE-आधारित सटीकता मूल्यांकन को लोकप्रिय बनाया, जिसके बाद क्षेत्र रैंकिंग और सटीकता से परे के मापों की ओर बढ़ा, जिसे हैंडबुक अध्यायों में समेकित किया गया जो इच्छित उपयोगकर्ता कार्य के साथ मूल्यांकन के मिलान पर जोर देते हैं।

Key figures

Jonathan Herlocker
Joseph Konstan
Guy Shani
Asela Gunawardana

Seminal works

herlocker2004
shani2011
ricci2015

Frequently asked questions

सिफारिशकर्ता का मूल्यांकन करने के लिए सटीकता पर्याप्त क्यों नहीं है?: एक सिफारिशकर्ता सटीक हो सकता है फिर भी अनुपयोगी हो सकता है, उदाहरण के लिए उन वस्तुओं का सुझाव देकर जिन्हें उपयोगकर्ता पहले से जानता है या लगभग-डुप्लिकेट। विविधता, नवीनता, आकस्मिकता और कवरेज जैसे गुण उपयोगिता के उन पहलुओं को पकड़ते हैं जिन्हें सटीकता याद करती है, इसलिए अच्छा मूल्यांकन कई आयामों पर विचार करता है।
सिफारिशकर्ता मूल्यांकन में डेटा विभाजन मुश्किल क्यों है?: सिफारिश डेटा समय-क्रमबद्ध होता है और लोकप्रिय वस्तुओं की ओर झुका होता है, इसलिए भोले यादृच्छिक विभाजन भविष्य की जानकारी को लीक कर सकते हैं या केवल लोकप्रिय वस्तुओं की सिफारिश करने के लिए पुरस्कृत कर सकते हैं। वास्तविक प्रदर्शन के ऑफ़लाइन परिणामों को पूर्वानुमानित बनाने के लिए सावधानीपूर्वक समय-आधारित विभाजन और पूर्वाग्रह-जागरूक मेट्रिक्स की आवश्यकता होती है।