ScholarGate
सहायक

सांख्यिकीय अधिगम सिद्धांत

सांख्यिकीय अधिगम सिद्धांत यह अध्ययन करता है कि सीमित डेटा से सीखना कब और क्यों सामान्यीकरण करता है, जो मशीन लर्निंग की गणितीय नींव प्रदान करता है।

PaperMind से विषय खोजेंजल्द हीFind papers & topics
Tools & resources
स्लाइड डाउनलोड करें
Learn & explore
वीडियोजल्द ही

Definition

सांख्यिकीय अधिगम सिद्धांत मशीन लर्निंग की वह शाखा है जो उन स्थितियों का विश्लेषण करने के लिए संभाव्यता और सांख्यिकी का उपयोग करती है जिनके तहत एक सीमित नमूने पर फिट किया गया मॉडल अनदेखे डेटा पर अच्छा प्रदर्शन करेगा, डेटा को फिट करने और मॉडल की जटिलता को नियंत्रित करने के बीच के व्यापार-बंद को दर्शाता है।

Scope

यह क्षेत्र सामान्यीकरण के सिद्धांत को शामिल करता है: अनुभवजन्य जोखिम न्यूनीकरण का ढाँचा, मॉडल क्षमता के माप जैसे वापनीक-चेरवोनेंकिस आयाम, सामान्यीकरण सीमाएँ जो प्रशिक्षण और वास्तविक त्रुटि को संबंधित करती हैं, पूर्वाग्रह-प्रसरण व्यापार-बंद, और संभाव्यतः लगभग सही मॉडल सहित कम्प्यूटेशनल अधिगम सिद्धांत। यह इस मौलिक प्रश्न का समाधान करता है कि विश्वसनीय रूप से सीखने के लिए कितने डेटा की आवश्यकता है।

Sub-topics

Core questions

  • प्रशिक्षण त्रुटि को कम करने से नए डेटा पर कम त्रुटि की गारंटी कब मिलती है?
  • एक मॉडल वर्ग की क्षमता या जटिलता को कैसे मापा जाता है?
  • किसी अवधारणा को दी गई सटीकता तक सीखने के लिए कितने डेटा की आवश्यकता होती है?
  • अत्यधिक मॉडल जटिलता सामान्यीकरण को क्यों नुकसान पहुँचाती है?

Key theories

एकसमान अभिसरण और VC सिद्धांत
वापनीक और चेरवोनेंकिस ने दिखाया कि अनुभवजन्य त्रुटि एक मॉडल वर्ग पर वास्तविक त्रुटि के लिए एकसमान रूप से अभिसरित होती है, जिसकी दर वर्ग की क्षमता द्वारा नियंत्रित होती है, जो जटिलता को सामान्यीकरण से जोड़ने वाला मौलिक परिणाम है।
संरचनात्मक जोखिम न्यूनीकरण
केवल प्रशिक्षण त्रुटि को कम करने के बजाय, सीखने को क्षमता के विरुद्ध फिट को संतुलित करना चाहिए, एक मॉडल वर्ग का चयन करना चाहिए जिसकी जटिलता उपलब्ध डेटा से मेल खाती हो ताकि वास्तविक त्रुटि पर एक सीमा को कम किया जा सके।
पूर्वाग्रह-प्रसरण और जटिलता नियंत्रण
सामान्यीकृत त्रुटि अत्यधिक सरल मॉडल से पूर्वाग्रह और अत्यधिक लचीले मॉडल से प्रसरण के बीच एक व्यापार-बंद को दर्शाती है, यह औपचारिक रूप से बताती है कि जटिलता को डेटा के अनुसार क्यों समायोजित किया जाना चाहिए।

Clinical relevance

सांख्यिकीय अधिगम सिद्धांत बताता है कि मशीन-लर्निंग विधियाँ क्यों काम करती हैं और यह क्षेत्र में उपयोग किए जाने वाले नियमितीकरण, मॉडल चयन और क्षमता नियंत्रण के लिए वैचारिक औचित्य प्रदान करता है; इसकी सीमाएँ, हालांकि व्यवहार में अक्सर शिथिल होती हैं, यह निर्धारित करती हैं कि चिकित्सक ओवरफिटिंग, नमूना आकार और सीखने की सीमाओं के बारे में कैसे सोचते हैं।

History

इस क्षेत्र की उत्पत्ति 1960 और 1970 के दशक में वापनीक और चेरवोनेंकिस के एकसमान अभिसरण और क्षमता पर किए गए कार्य से हुई, और 1984 में वैलिएंट के संभाव्यतः लगभग सही मॉडल से हुई, जिसने सीखने को एक कम्प्यूटेशनल समस्या के रूप में प्रस्तुत किया। ये सूत्र, बाद में सांख्यिकी से पूर्वाग्रह-प्रसरण परिप्रेक्ष्य के साथ जुड़कर, मशीन लर्निंग का सैद्धांतिक मूल बनाते हैं।

Debates

अति-पैरामीटराइज़्ड मॉडल सामान्यीकरण क्यों करते हैं
शास्त्रीय सिद्धांत भविष्यवाणी करता है कि डेटा से कहीं अधिक क्षमता वाले मॉडल ओवरफिट होने चाहिए, फिर भी बहुत बड़े न्यूरल नेटवर्क अक्सर अच्छी तरह से सामान्यीकरण करते हैं, जिससे सामान्यीकरण सिद्धांत की सक्रिय पुन: परीक्षा होती है।

Key figures

  • Vladimir Vapnik
  • Alexey Chervonenkis
  • Leslie Valiant

Related topics

Seminal works

  • vapnik1995
  • vapnik1971
  • hastie2009

Frequently asked questions

सांख्यिकीय अधिगम सिद्धांत क्या गारंटी देने की कोशिश करता है?
यह उन स्थितियों की तलाश करता है जिनके तहत प्रशिक्षण डेटा पर कम त्रुटि का अर्थ उसी वितरण से प्राप्त अनदेखे डेटा पर कम त्रुटि होता है। गारंटी वास्तविक त्रुटि को प्रशिक्षण त्रुटि और मॉडल जटिलता के माप से संबंधित सीमाओं का रूप लेती है।
मॉडल जटिलता इतनी महत्वपूर्ण क्यों है?
एक मॉडल वर्ग जो बहुत जटिल है, किसी भी प्रशिक्षण डेटा को फिट कर सकता है, जिसमें उसका शोर भी शामिल है, और इसलिए नए डेटा के बारे में हमें बहुत कम बताता है। सिद्धांत दिखाता है कि सामान्यीकरण वर्ग की क्षमता पर निर्भर करता है, यही कारण है कि विश्वसनीय सीखने के लिए जटिलता को नियंत्रित करना आवश्यक है।

Methods for this concept

Related concepts