नियमितीकरण और मॉडल जटिलता
नियमितीकरण मॉडल को दंडित या बाधित करके उसकी जटिलता को नियंत्रित करता है, जिससे ओवरफिटिंग कम होती है और सामान्यीकरण में सुधार होता है।
Definition
नियमितीकरण सीखने की प्रक्रिया में कोई भी ऐसा संशोधन है जो ओवरफिटिंग की उसकी प्रवृत्ति को कम करता है, आमतौर पर हानि (loss) में मॉडल जटिलता पर एक दंड जोड़कर या मॉडल को बाधित करके, ताकि फिट किया गया मॉडल प्रशिक्षण डेटा के लिए थोड़ा खराब फिट होने की कीमत पर भी बेहतर सामान्यीकरण करे।
Scope
यह विषय जटिलता को नियंत्रित करने की तकनीकों को शामिल करता है: मापदंडों पर L2 और L1 दंड, प्रारंभिक रोक (early stopping), न्यूरल नेटवर्क में ड्रॉपआउट (dropout) और डेटा ऑग्मेंटेशन (data augmentation), और सूचना मानदंड जो मॉडल चयन में जटिलता को दंडित करते हैं। यह नियमितीकरण को सरल मॉडल के लिए एक प्राथमिकता के रूप में प्रस्तुत करता है और इसे मापदंडों पर पूर्वधारणाओं (priors) के बायेसियन दृष्टिकोण से जोड़ता है।
Core questions
- जटिलता दंड ओवरफिटिंग को कैसे कम करते हैं?
- L1 और L2 दंड उनके प्रभाव में कैसे भिन्न होते हैं?
- न्यूरल नेटवर्क के लिए कौन सी नियमितीकरण विधियाँ विशिष्ट हैं?
- नियमितीकरण पूर्वधारणाओं (priors) के बायेसियन उपयोग से कैसे संबंधित है?
Key theories
- दंडित हानि (Penalized loss)
- प्रशिक्षण हानि में पैरामीटर परिमाण पर एक दंड जोड़ने से अत्यधिक जटिल समाधानों को हतोत्साहित किया जाता है, जिसमें L2 गुणांकों को सुचारू रूप से सिकोड़ता है और L1 कुछ को शून्य पर सेट करके विरलता को बढ़ावा देता है।
- डीप लर्निंग में नियमितीकरण
- प्रारंभिक रोक (early stopping), ड्रॉपआउट (dropout), वेट डीके (weight decay) और डेटा ऑग्मेंटेशन (data augmentation) जैसी तकनीकें न्यूरल नेटवर्क की प्रभावी जटिलता को नियंत्रित करती हैं, जो अन्यथा अपनी बड़ी क्षमता को देखते हुए ओवरफिट हो जाएंगी।
- बायेसियन व्याख्या
- एक जटिलता दंड मापदंडों पर एक पूर्वधारणा (prior) से मेल खाता है, इसलिए नियमित अनुमान को उस पूर्वधारणा के तहत सबसे संभावित मापदंडों को खोजने के रूप में पढ़ा जा सकता है, जो नियमितीकरण को बायेसियन अनुमान से जोड़ता है।
Clinical relevance
नियमितीकरण मॉडल को सामान्यीकृत करने के लिए सबसे महत्वपूर्ण व्यावहारिक उपकरणों में से एक है, और यह तब आवश्यक है जब मॉडल में डेटा के सापेक्ष उच्च क्षमता हो, जैसा कि आधुनिक डीप नेटवर्क में होता है; नियमितीकरण की सही मात्रा और रूप स्वयं विश्वसनीय मॉडल बनाने के लिए एक केंद्रीय ट्यूनिंग समस्या है।
History
दंडित अनुमान (penalized estimation) इल-पोज़्ड समस्याओं (ill-posed problems) के लिए तिखोनोव नियमितीकरण (Tikhonov regularization) और सांख्यिकी में रिज रिग्रेशन (ridge regression) से जुड़ा है, जिसमें बाद में लासो (lasso) ने विरलता (sparsity) को जोड़ा। डीप लर्निंग में, 2012 के आसपास पेश किए गए ड्रॉपआउट (dropout) जैसे तरीके, और वेट डीके (weight decay) और डेटा ऑग्मेंटेशन (data augmentation) न्यूरल नेटवर्क की बड़ी क्षमता को नियंत्रित करने के मानक साधन बन गए।
Key figures
- Andrey Tikhonov
- Robert Tibshirani
- Geoffrey Hinton
Related topics
Seminal works
- hastie2009
- goodfellow2016
- tibshirani1996
Frequently asked questions
- नियमितीकरण क्या करता है?
- यह एक मॉडल को बहुत जटिल होने से हतोत्साहित करता है, आमतौर पर उसके मापदंडों के आकार पर एक दंड जोड़कर या प्रशिक्षण को बाधित करके। यह ओवरफिटिंग को कम करता है, जिससे मॉडल शोर के बजाय अंतर्निहित पैटर्न को पकड़ता है और नए डेटा पर बेहतर प्रदर्शन करता है।
- L1 नियमितीकरण विरल मॉडल क्यों उत्पन्न करता है?
- मापदंडों के निरपेक्ष मान पर L1 दंड का एक ऐसा आकार होता है जो कुछ गुणांकों को केवल सिकोड़ने के बजाय ठीक शून्य पर ले जाता है। यह प्रभावी रूप से संबंधित विशेषताओं को हटा देता है, जिससे एक सरल, अधिक व्याख्या योग्य मॉडल प्राप्त होता है।