ScholarGate
सहायक

क्रॉस-वैलिडेशन और रीसैंपलिंग

क्रॉस-वैलिडेशन और रीसैंपलिंग उपलब्ध डेटा को बार-बार विभाजित या रीसैंपल करके एक मॉडल की सामान्यीकरण त्रुटि का अनुमान लगाते हैं, जिससे सीमित डेटासेट का कुशलतापूर्वक उपयोग होता है।

PaperMind से विषय खोजेंजल्द हीFind papers & topics
Tools & resources
स्लाइड डाउनलोड करें
Learn & explore
वीडियोजल्द ही

Definition

क्रॉस-वैलिडेशन डेटा को फोल्ड में विभाजित करके, कुछ फोल्ड पर प्रशिक्षण और रोके गए फोल्ड पर परीक्षण करके, और घुमावों पर औसत करके सामान्यीकरण त्रुटि का अनुमान लगाता है; रीसैंपलिंग, जिसमें बूटस्ट्रैप भी शामिल है, सीखने की प्रक्रिया के प्रदर्शन और परिवर्तनशीलता का अनुमान लगाने के लिए डेटा के उपसमूहों को बार-बार खींचता है।

Scope

यह विषय मॉडल का आकलन करने के लिए डेटा-पुनः उपयोग विधियों को शामिल करता है: ट्रेन-टेस्ट स्प्लिट, k-फोल्ड और लीव-वन-आउट क्रॉस-वैलिडेशन, ट्यूनिंग के लिए स्ट्रैटिफाइड और नेस्टेड क्रॉस-वैलिडेशन, और अनिश्चितता का अनुमान लगाने के लिए बूटस्ट्रैप। यह इन अनुमानकों के पूर्वाग्रह और विचरण और डेटा लीकेज जैसी कमियों को संबोधित करता है जो उन्हें अमान्य कर सकती हैं।

Core questions

  • k-फोल्ड क्रॉस-वैलिडेशन सामान्यीकरण त्रुटि का अनुमान कैसे लगाता है?
  • विभिन्न फोल्ड गणनाओं के पूर्वाग्रह-विचरण ट्रेड-ऑफ क्या हैं?
  • नेस्टेड क्रॉस-वैलिडेशन ट्यूनिंग और मूल्यांकन को अलग कैसे रखता है?
  • बूटस्ट्रैप एक अनुमान की परिवर्तनशीलता का अनुमान कैसे लगाता है?

Key theories

k-फोल्ड क्रॉस-वैलिडेशन
डेटा को k फोल्ड में विभाजित करना और यह घुमाना कि कौन सा फोल्ड रोका गया है, सामान्यीकरण त्रुटि का एक अनुमान देता है जो प्रशिक्षण और परीक्षण दोनों के लिए सभी डेटा का उपयोग करता है, अधिक विश्वसनीय अनुमान के लिए गणना का व्यापार करता है।
नेस्टेड क्रॉस-वैलिडेशन
जब हाइपरपैरामीटर ट्यून किए जाते हैं, तो एक आंतरिक क्रॉस-वैलिडेशन लूप उन्हें चुनता है और एक बाहरी लूप प्रदर्शन का आकलन करता है, जिससे उसी डेटा पर ट्यूनिंग और मूल्यांकन से उत्पन्न होने वाले आशावादी पूर्वाग्रह को रोका जा सके।
बूटस्ट्रैप
प्रतिस्थापन के साथ डेटा को कई बार रीसैंपल करना एक सांख्यिकी या मॉडल प्रदर्शन के नमूना वितरण का अनुमान लगाता है, जो वितरण संबंधी धारणाओं के बिना विश्वास अंतराल और त्रुटि अनुमान प्रदान करता है।

Clinical relevance

क्रॉस-वैलिडेशन सीमित डेटा होने पर मॉडल प्रदर्शन का अनुमान लगाने और मॉडल का चयन करने के लिए मानक उपकरण है, और बूटस्ट्रैप का व्यापक रूप से अनिश्चितता को निर्धारित करने के लिए उपयोग किया जाता है; उन्हें गलत तरीके से लागू करना, उदाहरण के लिए परीक्षण जानकारी को प्रशिक्षण में लीक करके या मूल्यांकन डेटा पर ट्यूनिंग करके, अतिरंजित परिणामों का एक लगातार और गंभीर कारण है।

History

क्रॉस-वैलिडेशन को 1970 के दशक में स्टोन और गीसर द्वारा भविष्यवाणी त्रुटि का अनुमान लगाने के लिए एक औपचारिक विधि के रूप में विकसित किया गया था। एफ्रॉन ने 1979 में बूटस्ट्रैप पेश किया, और साथ में ये रीसैंपलिंग विधियाँ सांख्यिकी और मशीन लर्निंग में मूल्यांकन और अनिश्चितता अनुमान के लिए अनिवार्य हो गईं।

Key figures

  • Mervyn Stone
  • Bradley Efron
  • Robert Tibshirani

Related topics

Seminal works

  • hastie2009
  • efron1993
  • murphy2012

Frequently asked questions

k-फोल्ड क्रॉस-वैलिडेशन क्या करता है?
यह डेटा को k बराबर भागों में विभाजित करता है, फिर मॉडल को k बार प्रशिक्षित करता है, हर बार परीक्षण के लिए एक अलग भाग को रोककर और बाकी का उपयोग प्रशिक्षण के लिए करता है। k परीक्षण परिणामों का औसत यह अनुमान देता है कि मॉडल अनदेखे डेटा पर कैसा प्रदर्शन करेगा।
नेस्टेड क्रॉस-वैलिडेशन की कभी-कभी आवश्यकता क्यों होती है?
यदि आप हाइपरपैरामीटर को ट्यून करते हैं और उसी क्रॉस-वैलिडेशन के साथ प्रदर्शन को मापते हैं, तो अनुमान आशावादी होता है क्योंकि विकल्प उस डेटा के अनुरूप थे। नेस्टेड क्रॉस-वैलिडेशन ट्यूनिंग के लिए एक आंतरिक लूप और मूल्यांकन के लिए एक बाहरी लूप का उपयोग करता है, दोनों को अलग रखता है।

Methods for this concept

Related concepts