मॉडल मूल्यांकन और चयन
मॉडल मूल्यांकन और चयन वे विधियाँ हैं जिनका उपयोग यह अनुमान लगाने के लिए किया जाता है कि एक मॉडल कितनी अच्छी तरह सामान्यीकरण करेगा और प्रतिस्पर्धी मॉडलों और सेटिंग्स में से चुनाव करने के लिए किया जाता है।
Definition
मॉडल मूल्यांकन अनदेखे डेटा पर एक मॉडल के अपेक्षित प्रदर्शन का अनुमान है, और मॉडल चयन ऐसे अनुमानों का उपयोग करके मॉडलों, विशेषताओं या हाइपरपैरामीटर सेटिंग्स में से चुनाव करना है; दोनों सामान्यीकरण के ईमानदार अनुमान प्राप्त करने के लिए फिटिंग के लिए उपयोग किए गए डेटा को मूल्यांकन के लिए उपयोग किए गए डेटा से अलग करने पर निर्भर करते हैं।
Scope
यह क्षेत्र मशीन लर्निंग की अनुभवजन्य पद्धति को शामिल करता है: डेटा को अलग रखकर और क्रॉस-वैलिडेशन द्वारा सामान्यीकरण त्रुटि का अनुमान लगाना, वर्गीकरण और प्रतिगमन के लिए प्रदर्शन मेट्रिक्स, अच्छे हाइपरपैरामीटर की खोज, और नियमितीकरण के माध्यम से मॉडल जटिलता का नियंत्रण। यह इस बात पर ध्यान देता है कि प्रशिक्षण डेटा पर मूल्यांकन से आशावादी पूर्वाग्रह से कैसे बचा जाए और मॉडलों की निष्पक्ष तुलना कैसे की जाए।
Sub-topics
Core questions
- सामान्यीकरण त्रुटि का अनुमान अत्यधिक आशावाद के बिना कैसे लगाया जा सकता है?
- किसी दिए गए कार्य के लिए कौन से मेट्रिक्स प्रदर्शन को सही ढंग से कैप्चर करते हैं?
- मूल्यांकन को दूषित किए बिना हाइपरपैरामीटर कैसे चुने जाते हैं?
- उपलब्ध डेटा के अनुसार मॉडल की जटिलता को कैसे ट्यून किया जाता है?
Key theories
- ईमानदार त्रुटि अनुमान
- फिटिंग के लिए उपयोग नहीं किए गए डेटा पर प्रदर्शन का अनुमान लगाना, होल्ड-आउट परीक्षण सेट या क्रॉस-वैलिडेशन के माध्यम से, आवश्यक है क्योंकि प्रशिक्षण डेटा पर मापी गई त्रुटि आशावादी रूप से पक्षपाती होती है।
- मॉडल चयन और जटिलता नियंत्रण
- मॉडलों में से चुनाव करने के लिए फिट और जटिलता के बीच संतुलन बनाना आवश्यक है, सत्यापन अनुमानों या सूचना मानदंडों का उपयोग करके उस मॉडल का चयन करना जो सबसे अच्छा सामान्यीकरण करने की उम्मीद है।
- चयन और मूल्यांकन का पृथक्करण
- हाइपरपैरामीटर को अंतिम परीक्षण सेट से अलग रखे गए सत्यापन डेटा पर ट्यून किया जाना चाहिए, क्योंकि चयन के लिए परीक्षण डेटा का पुन: उपयोग अत्यधिक आशावादी प्रदर्शन अनुमान उत्पन्न करता है।
Clinical relevance
सुदृढ़ मूल्यांकन पद्धति ही मशीन-लर्निंग परिणामों को विश्वसनीय बनाती है; प्रशिक्षण डेटा पर परीक्षण करना, परीक्षण सेट पर ट्यूनिंग करना, या भ्रामक मेट्रिक्स चुनना जैसी विफलताएं उन मॉडलों के सामान्य कारण हैं जो विकास में उत्कृष्ट दिखते हैं लेकिन परिनियोजन में विफल हो जाते हैं, जिससे यह क्षेत्र जिम्मेदार अभ्यास के लिए आवश्यक हो जाता है।
History
क्रॉस-वैलिडेशन को 1970 के दशक में स्टोन और अन्य द्वारा भविष्यवाणी त्रुटि का अनुमान लगाने के तरीके के रूप में औपचारिक रूप दिया गया था, और अकाइके के और बायेसियन मानदंड जैसे सूचना मानदंडों ने संभावना पर आधारित मॉडल-चयन नियम दिए। जैसे-जैसे मशीन लर्निंग परिपक्व हुई, कठोर ट्रेन, सत्यापन और परीक्षण प्रोटोकॉल और प्रदर्शन मेट्रिक्स की एक विस्तृत श्रृंखला मानक अभ्यास बन गई।
Debates
- सही मीट्रिक का चयन
- एकल सटीकता आंकड़ा असंतुलित या लागत-संवेदनशील समस्याओं पर गुमराह कर सकता है, जिससे इस बात पर बहस छिड़ जाती है कि कौन से मेट्रिक्स वास्तविक दुनिया के उद्देश्यों को सबसे अच्छी तरह दर्शाते हैं और प्रदर्शन को ईमानदारी से कैसे रिपोर्ट किया जाए।
Key figures
- Trevor Hastie
- Robert Tibshirani
- Mervyn Stone
Related topics
Seminal works
- hastie2009
- bishop2006
- murphy2012
Frequently asked questions
- प्रशिक्षण डेटा पर प्रदर्शन क्यों नहीं मापा जाता है?
- एक मॉडल अपने प्रशिक्षण डेटा को बारीकी से फिट कर सकता है, जिसमें उसका शोर भी शामिल है, इसलिए प्रशिक्षण त्रुटि नए डेटा पर त्रुटि को कम करके आंकती है। ईमानदार मूल्यांकन के लिए ऐसे डेटा की आवश्यकता होती है जिसे मॉडल ने कभी नहीं देखा है, जो एक होल्ड-आउट परीक्षण सेट या क्रॉस-वैलिडेशन के माध्यम से प्राप्त किया जाता है।
- सत्यापन सेट और परीक्षण सेट के बीच क्या अंतर है?
- एक सत्यापन सेट का उपयोग विकास के दौरान हाइपरपैरामीटर को ट्यून करने और मॉडल का चयन करने के लिए किया जाता है, जबकि परीक्षण सेट को एक एकल अंतिम मूल्यांकन के लिए आरक्षित रखा जाता है। उन्हें अलग रखने से ट्यूनिंग के दौरान किए गए विकल्पों को रिपोर्ट किए गए प्रदर्शन को बढ़ाने से रोका जा सकता है।