क्रॉस-वैलिडेशन और रीसैंपलिंग
क्रॉस-वैलिडेशन और रीसैंपलिंग उपलब्ध डेटा को बार-बार विभाजित या रीसैंपल करके एक मॉडल की सामान्यीकरण त्रुटि का अनुमान लगाते हैं, जिससे सीमित डेटासेट का कुशलतापूर्वक उपयोग होता है।
Definition
क्रॉस-वैलिडेशन डेटा को फोल्ड में विभाजित करके, कुछ फोल्ड पर प्रशिक्षण और रोके गए फोल्ड पर परीक्षण करके, और घुमावों पर औसत करके सामान्यीकरण त्रुटि का अनुमान लगाता है; रीसैंपलिंग, जिसमें बूटस्ट्रैप भी शामिल है, सीखने की प्रक्रिया के प्रदर्शन और परिवर्तनशीलता का अनुमान लगाने के लिए डेटा के उपसमूहों को बार-बार खींचता है।
Scope
यह विषय मॉडल का आकलन करने के लिए डेटा-पुनः उपयोग विधियों को शामिल करता है: ट्रेन-टेस्ट स्प्लिट, k-फोल्ड और लीव-वन-आउट क्रॉस-वैलिडेशन, ट्यूनिंग के लिए स्ट्रैटिफाइड और नेस्टेड क्रॉस-वैलिडेशन, और अनिश्चितता का अनुमान लगाने के लिए बूटस्ट्रैप। यह इन अनुमानकों के पूर्वाग्रह और विचरण और डेटा लीकेज जैसी कमियों को संबोधित करता है जो उन्हें अमान्य कर सकती हैं।
Core questions
- k-फोल्ड क्रॉस-वैलिडेशन सामान्यीकरण त्रुटि का अनुमान कैसे लगाता है?
- विभिन्न फोल्ड गणनाओं के पूर्वाग्रह-विचरण ट्रेड-ऑफ क्या हैं?
- नेस्टेड क्रॉस-वैलिडेशन ट्यूनिंग और मूल्यांकन को अलग कैसे रखता है?
- बूटस्ट्रैप एक अनुमान की परिवर्तनशीलता का अनुमान कैसे लगाता है?
Key theories
- k-फोल्ड क्रॉस-वैलिडेशन
- डेटा को k फोल्ड में विभाजित करना और यह घुमाना कि कौन सा फोल्ड रोका गया है, सामान्यीकरण त्रुटि का एक अनुमान देता है जो प्रशिक्षण और परीक्षण दोनों के लिए सभी डेटा का उपयोग करता है, अधिक विश्वसनीय अनुमान के लिए गणना का व्यापार करता है।
- नेस्टेड क्रॉस-वैलिडेशन
- जब हाइपरपैरामीटर ट्यून किए जाते हैं, तो एक आंतरिक क्रॉस-वैलिडेशन लूप उन्हें चुनता है और एक बाहरी लूप प्रदर्शन का आकलन करता है, जिससे उसी डेटा पर ट्यूनिंग और मूल्यांकन से उत्पन्न होने वाले आशावादी पूर्वाग्रह को रोका जा सके।
- बूटस्ट्रैप
- प्रतिस्थापन के साथ डेटा को कई बार रीसैंपल करना एक सांख्यिकी या मॉडल प्रदर्शन के नमूना वितरण का अनुमान लगाता है, जो वितरण संबंधी धारणाओं के बिना विश्वास अंतराल और त्रुटि अनुमान प्रदान करता है।
Clinical relevance
क्रॉस-वैलिडेशन सीमित डेटा होने पर मॉडल प्रदर्शन का अनुमान लगाने और मॉडल का चयन करने के लिए मानक उपकरण है, और बूटस्ट्रैप का व्यापक रूप से अनिश्चितता को निर्धारित करने के लिए उपयोग किया जाता है; उन्हें गलत तरीके से लागू करना, उदाहरण के लिए परीक्षण जानकारी को प्रशिक्षण में लीक करके या मूल्यांकन डेटा पर ट्यूनिंग करके, अतिरंजित परिणामों का एक लगातार और गंभीर कारण है।
History
क्रॉस-वैलिडेशन को 1970 के दशक में स्टोन और गीसर द्वारा भविष्यवाणी त्रुटि का अनुमान लगाने के लिए एक औपचारिक विधि के रूप में विकसित किया गया था। एफ्रॉन ने 1979 में बूटस्ट्रैप पेश किया, और साथ में ये रीसैंपलिंग विधियाँ सांख्यिकी और मशीन लर्निंग में मूल्यांकन और अनिश्चितता अनुमान के लिए अनिवार्य हो गईं।
Key figures
- Mervyn Stone
- Bradley Efron
- Robert Tibshirani
Related topics
Seminal works
- hastie2009
- efron1993
- murphy2012
Frequently asked questions
- k-फोल्ड क्रॉस-वैलिडेशन क्या करता है?
- यह डेटा को k बराबर भागों में विभाजित करता है, फिर मॉडल को k बार प्रशिक्षित करता है, हर बार परीक्षण के लिए एक अलग भाग को रोककर और बाकी का उपयोग प्रशिक्षण के लिए करता है। k परीक्षण परिणामों का औसत यह अनुमान देता है कि मॉडल अनदेखे डेटा पर कैसा प्रदर्शन करेगा।
- नेस्टेड क्रॉस-वैलिडेशन की कभी-कभी आवश्यकता क्यों होती है?
- यदि आप हाइपरपैरामीटर को ट्यून करते हैं और उसी क्रॉस-वैलिडेशन के साथ प्रदर्शन को मापते हैं, तो अनुमान आशावादी होता है क्योंकि विकल्प उस डेटा के अनुरूप थे। नेस्टेड क्रॉस-वैलिडेशन ट्यूनिंग के लिए एक आंतरिक लूप और मूल्यांकन के लिए एक बाहरी लूप का उपयोग करता है, दोनों को अलग रखता है।