k-फोल्ड क्रॉस-वैलिडेशन क्या करता है?

यह डेटा को k बराबर भागों में विभाजित करता है, फिर मॉडल को k बार प्रशिक्षित करता है, हर बार परीक्षण के लिए एक अलग भाग को रोककर और बाकी का उपयोग प्रशिक्षण के लिए करता है। k परीक्षण परिणामों का औसत यह अनुमान देता है कि मॉडल अनदेखे डेटा पर कैसा प्रदर्शन करेगा।

नेस्टेड क्रॉस-वैलिडेशन की कभी-कभी आवश्यकता क्यों होती है?

यदि आप हाइपरपैरामीटर को ट्यून करते हैं और उसी क्रॉस-वैलिडेशन के साथ प्रदर्शन को मापते हैं, तो अनुमान आशावादी होता है क्योंकि विकल्प उस डेटा के अनुरूप थे। नेस्टेड क्रॉस-वैलिडेशन ट्यूनिंग के लिए एक आंतरिक लूप और मूल्यांकन के लिए एक बाहरी लूप का उपयोग करता है, दोनों को अलग रखता है।

क्रॉस-वैलिडेशन और रीसैंपलिंग

क्रॉस-वैलिडेशन और रीसैंपलिंग उपलब्ध डेटा को बार-बार विभाजित या रीसैंपल करके एक मॉडल की सामान्यीकरण त्रुटि का अनुमान लगाते हैं, जिससे सीमित डेटासेट का कुशलतापूर्वक उपयोग होता है।

PaperMind से विषय खोजेंजल्द हीFind papers & topics

Tools & resources

स्लाइड डाउनलोड करें

Learn & explore

वीडियोजल्द ही

Definition

क्रॉस-वैलिडेशन डेटा को फोल्ड में विभाजित करके, कुछ फोल्ड पर प्रशिक्षण और रोके गए फोल्ड पर परीक्षण करके, और घुमावों पर औसत करके सामान्यीकरण त्रुटि का अनुमान लगाता है; रीसैंपलिंग, जिसमें बूटस्ट्रैप भी शामिल है, सीखने की प्रक्रिया के प्रदर्शन और परिवर्तनशीलता का अनुमान लगाने के लिए डेटा के उपसमूहों को बार-बार खींचता है।

Scope

यह विषय मॉडल का आकलन करने के लिए डेटा-पुनः उपयोग विधियों को शामिल करता है: ट्रेन-टेस्ट स्प्लिट, k-फोल्ड और लीव-वन-आउट क्रॉस-वैलिडेशन, ट्यूनिंग के लिए स्ट्रैटिफाइड और नेस्टेड क्रॉस-वैलिडेशन, और अनिश्चितता का अनुमान लगाने के लिए बूटस्ट्रैप। यह इन अनुमानकों के पूर्वाग्रह और विचरण और डेटा लीकेज जैसी कमियों को संबोधित करता है जो उन्हें अमान्य कर सकती हैं।

Core questions

k-फोल्ड क्रॉस-वैलिडेशन सामान्यीकरण त्रुटि का अनुमान कैसे लगाता है?
विभिन्न फोल्ड गणनाओं के पूर्वाग्रह-विचरण ट्रेड-ऑफ क्या हैं?
नेस्टेड क्रॉस-वैलिडेशन ट्यूनिंग और मूल्यांकन को अलग कैसे रखता है?
बूटस्ट्रैप एक अनुमान की परिवर्तनशीलता का अनुमान कैसे लगाता है?

Key theories

k-फोल्ड क्रॉस-वैलिडेशन: डेटा को k फोल्ड में विभाजित करना और यह घुमाना कि कौन सा फोल्ड रोका गया है, सामान्यीकरण त्रुटि का एक अनुमान देता है जो प्रशिक्षण और परीक्षण दोनों के लिए सभी डेटा का उपयोग करता है, अधिक विश्वसनीय अनुमान के लिए गणना का व्यापार करता है।
नेस्टेड क्रॉस-वैलिडेशन: जब हाइपरपैरामीटर ट्यून किए जाते हैं, तो एक आंतरिक क्रॉस-वैलिडेशन लूप उन्हें चुनता है और एक बाहरी लूप प्रदर्शन का आकलन करता है, जिससे उसी डेटा पर ट्यूनिंग और मूल्यांकन से उत्पन्न होने वाले आशावादी पूर्वाग्रह को रोका जा सके।
बूटस्ट्रैप: प्रतिस्थापन के साथ डेटा को कई बार रीसैंपल करना एक सांख्यिकी या मॉडल प्रदर्शन के नमूना वितरण का अनुमान लगाता है, जो वितरण संबंधी धारणाओं के बिना विश्वास अंतराल और त्रुटि अनुमान प्रदान करता है।

Clinical relevance

क्रॉस-वैलिडेशन सीमित डेटा होने पर मॉडल प्रदर्शन का अनुमान लगाने और मॉडल का चयन करने के लिए मानक उपकरण है, और बूटस्ट्रैप का व्यापक रूप से अनिश्चितता को निर्धारित करने के लिए उपयोग किया जाता है; उन्हें गलत तरीके से लागू करना, उदाहरण के लिए परीक्षण जानकारी को प्रशिक्षण में लीक करके या मूल्यांकन डेटा पर ट्यूनिंग करके, अतिरंजित परिणामों का एक लगातार और गंभीर कारण है।

History

क्रॉस-वैलिडेशन को 1970 के दशक में स्टोन और गीसर द्वारा भविष्यवाणी त्रुटि का अनुमान लगाने के लिए एक औपचारिक विधि के रूप में विकसित किया गया था। एफ्रॉन ने 1979 में बूटस्ट्रैप पेश किया, और साथ में ये रीसैंपलिंग विधियाँ सांख्यिकी और मशीन लर्निंग में मूल्यांकन और अनिश्चितता अनुमान के लिए अनिवार्य हो गईं।

Key figures

Mervyn Stone
Bradley Efron
Robert Tibshirani

Seminal works

hastie2009
efron1993
murphy2012

Frequently asked questions

k-फोल्ड क्रॉस-वैलिडेशन क्या करता है?: यह डेटा को k बराबर भागों में विभाजित करता है, फिर मॉडल को k बार प्रशिक्षित करता है, हर बार परीक्षण के लिए एक अलग भाग को रोककर और बाकी का उपयोग प्रशिक्षण के लिए करता है। k परीक्षण परिणामों का औसत यह अनुमान देता है कि मॉडल अनदेखे डेटा पर कैसा प्रदर्शन करेगा।
नेस्टेड क्रॉस-वैलिडेशन की कभी-कभी आवश्यकता क्यों होती है?: यदि आप हाइपरपैरामीटर को ट्यून करते हैं और उसी क्रॉस-वैलिडेशन के साथ प्रदर्शन को मापते हैं, तो अनुमान आशावादी होता है क्योंकि विकल्प उस डेटा के अनुरूप थे। नेस्टेड क्रॉस-वैलिडेशन ट्यूनिंग के लिए एक आंतरिक लूप और मूल्यांकन के लिए एक बाहरी लूप का उपयोग करता है, दोनों को अलग रखता है।