सिफारिशकर्ता मूल्यांकन
सिफारिशकर्ता मूल्यांकन यह मापता है कि सिफारिशें कितनी अच्छी हैं, जिसमें पूर्वानुमानित सटीकता, रैंकिंग गुणवत्ता और विविधता, नवीनता और कवरेज जैसे सटीकता से परे के गुण शामिल हैं।
Definition
सिफारिशकर्ता मूल्यांकन एक सिफारिशकर्ता प्रणाली की गुणवत्ता का आकलन करने के लिए कार्यप्रणालियों और मेट्रिक्स का एक समूह है, जिसमें रोके गए डेटा पर गणना की गई ऑफ़लाइन सटीकता और रैंकिंग माप, सिफारिश सेट के सटीकता से परे के गुण, और उपयोगकर्ता-केंद्रित और ऑनलाइन प्रयोग शामिल हैं।
Scope
यह विषय सिफारिशकर्ता प्रणालियों का आकलन कैसे किया जाता है, इसे शामिल करता है: रोके गए इंटरैक्शन डेटा का उपयोग करके ऑफ़लाइन प्रयोग, रेटिंग पूर्वानुमान और शीर्ष-N रैंकिंग के लिए सटीकता माप, और विविधता, नवीनता, आकस्मिकता और कैटलॉग कवरेज सहित सटीकता से परे के मानदंड, साथ ही उपयोगकर्ता अध्ययन और ऑनलाइन प्रयोग। यह सिफारिश से संबंधित प्रायोगिक डिजाइन की कमियों को संबोधित करता है, जैसे डेटा विभाजन और लोकप्रियता पूर्वाग्रह, और सूचना पहुंच में उपयोग की जाने वाली व्यापक ऑनलाइन-मूल्यांकन विधियों से जुड़ता है।
Core questions
- रेटिंग पूर्वानुमान बनाम शीर्ष-N रैंकिंग के लिए सिफारिश की गुणवत्ता को कैसे मापा जाता है?
- सिफारिशकर्ता का न्याय करने के लिए अकेले सटीकता मेट्रिक्स अपर्याप्त क्यों हैं?
- विविधता, नवीनता, आकस्मिकता और कवरेज को कैसे मापा जाता है?
- रिसाव और लोकप्रियता पूर्वाग्रह से बचने के लिए इंटरैक्शन डेटा को कैसे विभाजित किया जाना चाहिए?
- ऑफ़लाइन, उपयोगकर्ता-अध्ययन और ऑनलाइन मूल्यांकन एक-दूसरे के पूरक कैसे हैं?
Key concepts
- रेटिंग-पूर्वानुमान सटीकता (MAE, RMSE)
- शीर्ष-N रैंकिंग मेट्रिक्स (सटीकता, रिकॉल, nDCG)
- विविधता और नवीनता
- आकस्मिकता
- कैटलॉग कवरेज
- ऑफ़लाइन बनाम ऑनलाइन मूल्यांकन
- डेटा विभाजन और रिसाव
- लोकप्रियता पूर्वाग्रह
Key theories
- सटीकता और रैंकिंग मूल्यांकन
- सिफारिशकर्ताओं को या तो इस आधार पर स्कोर किया जाता है कि वे त्रुटि मापों का उपयोग करके रेटिंग का कितनी अच्छी तरह से अनुमान लगाते हैं, या वे वस्तुओं को कितनी अच्छी तरह से रैंक करते हैं, सटीकता, रिकॉल और सामान्यीकृत रियायती संचयी लाभ जैसे शीर्ष-N मापों का उपयोग करके, बाद वाला इस बात से बेहतर मेल खाता है कि सिफारिशों का उपभोग कैसे किया जाता है।
- सटीकता से परे मूल्यांकन
- क्योंकि सटीक लेकिन अनावश्यक या स्पष्ट सिफारिशें उपयोगकर्ताओं को संतुष्ट नहीं कर सकती हैं, मूल्यांकन में विविधता, नवीनता, आकस्मिकता और कवरेज भी शामिल है, यह पहचानते हुए कि सिफारिश की गुणवत्ता बहुआयामी है।
Clinical relevance
ध्वनि मूल्यांकन यह निर्धारित करता है कि कौन से सिफारिश परिवर्तन तैनात किए जाते हैं और गलत उद्देश्य को अनुकूलित करने से बचाता है। विविधता और नवीनता जैसी सटीकता से परे की चिंताएं सीधे उपयोगकर्ता संतुष्टि और जुड़ाव को प्रभावित करती हैं, और फिल्टर बुलबुले और सिफारिश में निष्पक्षता के व्यापक मुद्दों से जुड़ती हैं।
History
हर्लॉकर और सहयोगियों के 2004 के लेख ने सहयोगी-फ़िल्टरिंग सिफारिशकर्ताओं के मूल्यांकन के लिए एक कठोर ढांचा स्थापित किया, जिसमें कार्यों और मेट्रिक्स को स्पष्ट किया गया। नेटफ्लिक्स पुरस्कार ने RMSE-आधारित सटीकता मूल्यांकन को लोकप्रिय बनाया, जिसके बाद क्षेत्र रैंकिंग और सटीकता से परे के मापों की ओर बढ़ा, जिसे हैंडबुक अध्यायों में समेकित किया गया जो इच्छित उपयोगकर्ता कार्य के साथ मूल्यांकन के मिलान पर जोर देते हैं।
Key figures
- Jonathan Herlocker
- Joseph Konstan
- Guy Shani
- Asela Gunawardana
Related topics
Seminal works
- herlocker2004
- shani2011
- ricci2015
Frequently asked questions
- सिफारिशकर्ता का मूल्यांकन करने के लिए सटीकता पर्याप्त क्यों नहीं है?
- एक सिफारिशकर्ता सटीक हो सकता है फिर भी अनुपयोगी हो सकता है, उदाहरण के लिए उन वस्तुओं का सुझाव देकर जिन्हें उपयोगकर्ता पहले से जानता है या लगभग-डुप्लिकेट। विविधता, नवीनता, आकस्मिकता और कवरेज जैसे गुण उपयोगिता के उन पहलुओं को पकड़ते हैं जिन्हें सटीकता याद करती है, इसलिए अच्छा मूल्यांकन कई आयामों पर विचार करता है।
- सिफारिशकर्ता मूल्यांकन में डेटा विभाजन मुश्किल क्यों है?
- सिफारिश डेटा समय-क्रमबद्ध होता है और लोकप्रिय वस्तुओं की ओर झुका होता है, इसलिए भोले यादृच्छिक विभाजन भविष्य की जानकारी को लीक कर सकते हैं या केवल लोकप्रिय वस्तुओं की सिफारिश करने के लिए पुरस्कृत कर सकते हैं। वास्तविक प्रदर्शन के ऑफ़लाइन परिणामों को पूर्वानुमानित बनाने के लिए सावधानीपूर्वक समय-आधारित विभाजन और पूर्वाग्रह-जागरूक मेट्रिक्स की आवश्यकता होती है।