ScholarGate
सहायक

मॉडल मूल्यांकन और चयन

मॉडल मूल्यांकन और चयन वे विधियाँ हैं जिनका उपयोग यह अनुमान लगाने के लिए किया जाता है कि एक मॉडल कितनी अच्छी तरह सामान्यीकरण करेगा और प्रतिस्पर्धी मॉडलों और सेटिंग्स में से चुनाव करने के लिए किया जाता है।

PaperMind से विषय खोजेंजल्द हीFind papers & topics
Tools & resources
स्लाइड डाउनलोड करें
Learn & explore
वीडियोजल्द ही

Definition

मॉडल मूल्यांकन अनदेखे डेटा पर एक मॉडल के अपेक्षित प्रदर्शन का अनुमान है, और मॉडल चयन ऐसे अनुमानों का उपयोग करके मॉडलों, विशेषताओं या हाइपरपैरामीटर सेटिंग्स में से चुनाव करना है; दोनों सामान्यीकरण के ईमानदार अनुमान प्राप्त करने के लिए फिटिंग के लिए उपयोग किए गए डेटा को मूल्यांकन के लिए उपयोग किए गए डेटा से अलग करने पर निर्भर करते हैं।

Scope

यह क्षेत्र मशीन लर्निंग की अनुभवजन्य पद्धति को शामिल करता है: डेटा को अलग रखकर और क्रॉस-वैलिडेशन द्वारा सामान्यीकरण त्रुटि का अनुमान लगाना, वर्गीकरण और प्रतिगमन के लिए प्रदर्शन मेट्रिक्स, अच्छे हाइपरपैरामीटर की खोज, और नियमितीकरण के माध्यम से मॉडल जटिलता का नियंत्रण। यह इस बात पर ध्यान देता है कि प्रशिक्षण डेटा पर मूल्यांकन से आशावादी पूर्वाग्रह से कैसे बचा जाए और मॉडलों की निष्पक्ष तुलना कैसे की जाए।

Sub-topics

Core questions

  • सामान्यीकरण त्रुटि का अनुमान अत्यधिक आशावाद के बिना कैसे लगाया जा सकता है?
  • किसी दिए गए कार्य के लिए कौन से मेट्रिक्स प्रदर्शन को सही ढंग से कैप्चर करते हैं?
  • मूल्यांकन को दूषित किए बिना हाइपरपैरामीटर कैसे चुने जाते हैं?
  • उपलब्ध डेटा के अनुसार मॉडल की जटिलता को कैसे ट्यून किया जाता है?

Key theories

ईमानदार त्रुटि अनुमान
फिटिंग के लिए उपयोग नहीं किए गए डेटा पर प्रदर्शन का अनुमान लगाना, होल्ड-आउट परीक्षण सेट या क्रॉस-वैलिडेशन के माध्यम से, आवश्यक है क्योंकि प्रशिक्षण डेटा पर मापी गई त्रुटि आशावादी रूप से पक्षपाती होती है।
मॉडल चयन और जटिलता नियंत्रण
मॉडलों में से चुनाव करने के लिए फिट और जटिलता के बीच संतुलन बनाना आवश्यक है, सत्यापन अनुमानों या सूचना मानदंडों का उपयोग करके उस मॉडल का चयन करना जो सबसे अच्छा सामान्यीकरण करने की उम्मीद है।
चयन और मूल्यांकन का पृथक्करण
हाइपरपैरामीटर को अंतिम परीक्षण सेट से अलग रखे गए सत्यापन डेटा पर ट्यून किया जाना चाहिए, क्योंकि चयन के लिए परीक्षण डेटा का पुन: उपयोग अत्यधिक आशावादी प्रदर्शन अनुमान उत्पन्न करता है।

Clinical relevance

सुदृढ़ मूल्यांकन पद्धति ही मशीन-लर्निंग परिणामों को विश्वसनीय बनाती है; प्रशिक्षण डेटा पर परीक्षण करना, परीक्षण सेट पर ट्यूनिंग करना, या भ्रामक मेट्रिक्स चुनना जैसी विफलताएं उन मॉडलों के सामान्य कारण हैं जो विकास में उत्कृष्ट दिखते हैं लेकिन परिनियोजन में विफल हो जाते हैं, जिससे यह क्षेत्र जिम्मेदार अभ्यास के लिए आवश्यक हो जाता है।

History

क्रॉस-वैलिडेशन को 1970 के दशक में स्टोन और अन्य द्वारा भविष्यवाणी त्रुटि का अनुमान लगाने के तरीके के रूप में औपचारिक रूप दिया गया था, और अकाइके के और बायेसियन मानदंड जैसे सूचना मानदंडों ने संभावना पर आधारित मॉडल-चयन नियम दिए। जैसे-जैसे मशीन लर्निंग परिपक्व हुई, कठोर ट्रेन, सत्यापन और परीक्षण प्रोटोकॉल और प्रदर्शन मेट्रिक्स की एक विस्तृत श्रृंखला मानक अभ्यास बन गई।

Debates

सही मीट्रिक का चयन
एकल सटीकता आंकड़ा असंतुलित या लागत-संवेदनशील समस्याओं पर गुमराह कर सकता है, जिससे इस बात पर बहस छिड़ जाती है कि कौन से मेट्रिक्स वास्तविक दुनिया के उद्देश्यों को सबसे अच्छी तरह दर्शाते हैं और प्रदर्शन को ईमानदारी से कैसे रिपोर्ट किया जाए।

Key figures

  • Trevor Hastie
  • Robert Tibshirani
  • Mervyn Stone

Related topics

Seminal works

  • hastie2009
  • bishop2006
  • murphy2012

Frequently asked questions

प्रशिक्षण डेटा पर प्रदर्शन क्यों नहीं मापा जाता है?
एक मॉडल अपने प्रशिक्षण डेटा को बारीकी से फिट कर सकता है, जिसमें उसका शोर भी शामिल है, इसलिए प्रशिक्षण त्रुटि नए डेटा पर त्रुटि को कम करके आंकती है। ईमानदार मूल्यांकन के लिए ऐसे डेटा की आवश्यकता होती है जिसे मॉडल ने कभी नहीं देखा है, जो एक होल्ड-आउट परीक्षण सेट या क्रॉस-वैलिडेशन के माध्यम से प्राप्त किया जाता है।
सत्यापन सेट और परीक्षण सेट के बीच क्या अंतर है?
एक सत्यापन सेट का उपयोग विकास के दौरान हाइपरपैरामीटर को ट्यून करने और मॉडल का चयन करने के लिए किया जाता है, जबकि परीक्षण सेट को एक एकल अंतिम मूल्यांकन के लिए आरक्षित रखा जाता है। उन्हें अलग रखने से ट्यूनिंग के दौरान किए गए विकल्पों को रिपोर्ट किए गए प्रदर्शन को बढ़ाने से रोका जा सकता है।

Methods for this concept

Related concepts