प्रशिक्षण डेटा पर प्रदर्शन क्यों नहीं मापा जाता है?

एक मॉडल अपने प्रशिक्षण डेटा को बारीकी से फिट कर सकता है, जिसमें उसका शोर भी शामिल है, इसलिए प्रशिक्षण त्रुटि नए डेटा पर त्रुटि को कम करके आंकती है। ईमानदार मूल्यांकन के लिए ऐसे डेटा की आवश्यकता होती है जिसे मॉडल ने कभी नहीं देखा है, जो एक होल्ड-आउट परीक्षण सेट या क्रॉस-वैलिडेशन के माध्यम से प्राप्त किया जाता है।

सत्यापन सेट और परीक्षण सेट के बीच क्या अंतर है?

एक सत्यापन सेट का उपयोग विकास के दौरान हाइपरपैरामीटर को ट्यून करने और मॉडल का चयन करने के लिए किया जाता है, जबकि परीक्षण सेट को एक एकल अंतिम मूल्यांकन के लिए आरक्षित रखा जाता है। उन्हें अलग रखने से ट्यूनिंग के दौरान किए गए विकल्पों को रिपोर्ट किए गए प्रदर्शन को बढ़ाने से रोका जा सकता है।

मॉडल मूल्यांकन और चयन

मॉडल मूल्यांकन और चयन वे विधियाँ हैं जिनका उपयोग यह अनुमान लगाने के लिए किया जाता है कि एक मॉडल कितनी अच्छी तरह सामान्यीकरण करेगा और प्रतिस्पर्धी मॉडलों और सेटिंग्स में से चुनाव करने के लिए किया जाता है।

PaperMind से विषय खोजेंजल्द हीFind papers & topics

Tools & resources

स्लाइड डाउनलोड करें

Learn & explore

वीडियोजल्द ही

Definition

मॉडल मूल्यांकन अनदेखे डेटा पर एक मॉडल के अपेक्षित प्रदर्शन का अनुमान है, और मॉडल चयन ऐसे अनुमानों का उपयोग करके मॉडलों, विशेषताओं या हाइपरपैरामीटर सेटिंग्स में से चुनाव करना है; दोनों सामान्यीकरण के ईमानदार अनुमान प्राप्त करने के लिए फिटिंग के लिए उपयोग किए गए डेटा को मूल्यांकन के लिए उपयोग किए गए डेटा से अलग करने पर निर्भर करते हैं।

Scope

यह क्षेत्र मशीन लर्निंग की अनुभवजन्य पद्धति को शामिल करता है: डेटा को अलग रखकर और क्रॉस-वैलिडेशन द्वारा सामान्यीकरण त्रुटि का अनुमान लगाना, वर्गीकरण और प्रतिगमन के लिए प्रदर्शन मेट्रिक्स, अच्छे हाइपरपैरामीटर की खोज, और नियमितीकरण के माध्यम से मॉडल जटिलता का नियंत्रण। यह इस बात पर ध्यान देता है कि प्रशिक्षण डेटा पर मूल्यांकन से आशावादी पूर्वाग्रह से कैसे बचा जाए और मॉडलों की निष्पक्ष तुलना कैसे की जाए।

Sub-topics

Core questions

सामान्यीकरण त्रुटि का अनुमान अत्यधिक आशावाद के बिना कैसे लगाया जा सकता है?
किसी दिए गए कार्य के लिए कौन से मेट्रिक्स प्रदर्शन को सही ढंग से कैप्चर करते हैं?
मूल्यांकन को दूषित किए बिना हाइपरपैरामीटर कैसे चुने जाते हैं?
उपलब्ध डेटा के अनुसार मॉडल की जटिलता को कैसे ट्यून किया जाता है?

Key theories

ईमानदार त्रुटि अनुमान: फिटिंग के लिए उपयोग नहीं किए गए डेटा पर प्रदर्शन का अनुमान लगाना, होल्ड-आउट परीक्षण सेट या क्रॉस-वैलिडेशन के माध्यम से, आवश्यक है क्योंकि प्रशिक्षण डेटा पर मापी गई त्रुटि आशावादी रूप से पक्षपाती होती है।
मॉडल चयन और जटिलता नियंत्रण: मॉडलों में से चुनाव करने के लिए फिट और जटिलता के बीच संतुलन बनाना आवश्यक है, सत्यापन अनुमानों या सूचना मानदंडों का उपयोग करके उस मॉडल का चयन करना जो सबसे अच्छा सामान्यीकरण करने की उम्मीद है।
चयन और मूल्यांकन का पृथक्करण: हाइपरपैरामीटर को अंतिम परीक्षण सेट से अलग रखे गए सत्यापन डेटा पर ट्यून किया जाना चाहिए, क्योंकि चयन के लिए परीक्षण डेटा का पुन: उपयोग अत्यधिक आशावादी प्रदर्शन अनुमान उत्पन्न करता है।

Clinical relevance

सुदृढ़ मूल्यांकन पद्धति ही मशीन-लर्निंग परिणामों को विश्वसनीय बनाती है; प्रशिक्षण डेटा पर परीक्षण करना, परीक्षण सेट पर ट्यूनिंग करना, या भ्रामक मेट्रिक्स चुनना जैसी विफलताएं उन मॉडलों के सामान्य कारण हैं जो विकास में उत्कृष्ट दिखते हैं लेकिन परिनियोजन में विफल हो जाते हैं, जिससे यह क्षेत्र जिम्मेदार अभ्यास के लिए आवश्यक हो जाता है।

History

क्रॉस-वैलिडेशन को 1970 के दशक में स्टोन और अन्य द्वारा भविष्यवाणी त्रुटि का अनुमान लगाने के तरीके के रूप में औपचारिक रूप दिया गया था, और अकाइके के और बायेसियन मानदंड जैसे सूचना मानदंडों ने संभावना पर आधारित मॉडल-चयन नियम दिए। जैसे-जैसे मशीन लर्निंग परिपक्व हुई, कठोर ट्रेन, सत्यापन और परीक्षण प्रोटोकॉल और प्रदर्शन मेट्रिक्स की एक विस्तृत श्रृंखला मानक अभ्यास बन गई।

Debates

सही मीट्रिक का चयन: एकल सटीकता आंकड़ा असंतुलित या लागत-संवेदनशील समस्याओं पर गुमराह कर सकता है, जिससे इस बात पर बहस छिड़ जाती है कि कौन से मेट्रिक्स वास्तविक दुनिया के उद्देश्यों को सबसे अच्छी तरह दर्शाते हैं और प्रदर्शन को ईमानदारी से कैसे रिपोर्ट किया जाए।

Key figures

Trevor Hastie
Robert Tibshirani
Mervyn Stone

Seminal works

hastie2009
bishop2006
murphy2012

Frequently asked questions

प्रशिक्षण डेटा पर प्रदर्शन क्यों नहीं मापा जाता है?: एक मॉडल अपने प्रशिक्षण डेटा को बारीकी से फिट कर सकता है, जिसमें उसका शोर भी शामिल है, इसलिए प्रशिक्षण त्रुटि नए डेटा पर त्रुटि को कम करके आंकती है। ईमानदार मूल्यांकन के लिए ऐसे डेटा की आवश्यकता होती है जिसे मॉडल ने कभी नहीं देखा है, जो एक होल्ड-आउट परीक्षण सेट या क्रॉस-वैलिडेशन के माध्यम से प्राप्त किया जाता है।
सत्यापन सेट और परीक्षण सेट के बीच क्या अंतर है?: एक सत्यापन सेट का उपयोग विकास के दौरान हाइपरपैरामीटर को ट्यून करने और मॉडल का चयन करने के लिए किया जाता है, जबकि परीक्षण सेट को एक एकल अंतिम मूल्यांकन के लिए आरक्षित रखा जाता है। उन्हें अलग रखने से ट्यूनिंग के दौरान किए गए विकल्पों को रिपोर्ट किए गए प्रदर्शन को बढ़ाने से रोका जा सकता है।