ScholarGate
सहायक

एन्सेम्बल पद्धतियाँ

एन्सेम्बल पद्धतियाँ कई व्यक्तिगत मॉडलों को एक एकल प्रेडिक्टर में संयोजित करती हैं, जिससे किसी एक सदस्य से बेहतर सटीकता प्राप्त करने के लिए विचरण या पूर्वाग्रह कम होता है।

PaperMind से विषय खोजेंजल्द हीFind papers & topics
Tools & resources
स्लाइड डाउनलोड करें
Learn & explore
वीडियोजल्द ही

Definition

एक एन्सेम्बल विधि आधार मॉडलों के संग्रह को प्रशिक्षित करती है और उनके प्रेडिक्शन को संयोजित करती है, उदाहरण के लिए औसत या भारित मतदान द्वारा; बैगिंग-शैली के एन्सेम्बल यादृच्छिक मॉडलों पर औसत करके विचरण को कम करते हैं, जबकि बूस्टिंग-शैली के एन्सेम्बल पहले से गलत वर्गीकृत उदाहरणों पर क्रमिक रूप से जोर देकर पूर्वाग्रह को कम करते हैं।

Scope

यह विषय कई शिक्षार्थियों को एकत्रित करने वाली तकनीकों को शामिल करता है: बैगिंग और बूटस्ट्रैप एकत्रीकरण, रैंडम फ़ॉरेस्ट जो डेटा और विशेषताओं दोनों को यादृच्छिक करते हैं, और बूस्टिंग पद्धतियाँ जैसे एडाबूस्ट और ग्रेडिएंट बूस्टिंग जो पिछली त्रुटियों को ठीक करने के लिए मॉडलों को क्रमिक रूप से फिट करती हैं। यह इस बात पर प्रकाश डालता है कि एन्सेम्बल त्रुटि को क्यों कम करते हैं, औसत बनाम बूस्टिंग के पूर्वाग्रह-विचरण प्रभाव, और मॉडल विविधता की भूमिका।

Core questions

  • कई मॉडलों को संयोजित करना अक्सर सबसे अच्छे एकल मॉडल को क्यों हरा देता है?
  • बैगिंग और बूस्टिंग किस त्रुटि को कम करने में कैसे भिन्न हैं?
  • आधार शिक्षार्थियों के बीच विविधता की क्या भूमिका है?
  • ग्रेडिएंट बूस्टिंग योगात्मक मॉडलों को चरण-दर-चरण कैसे फिट करता है?

Key theories

बैगिंग और विचरण में कमी
बूटस्ट्रैप रीसैंपल पर प्रशिक्षित मॉडलों के प्रेडिक्शन का औसत विचरण को बहुत अधिक पूर्वाग्रह बढ़ाए बिना कम करता है, जो अस्थिर, उच्च-विचरण वाले आधार शिक्षार्थियों जैसे गहरे निर्णय वृक्षों के लिए सबसे प्रभावी है।
रैंडम फ़ॉरेस्ट
रैंडम फ़ॉरेस्ट डेटा को रीसैंपल करके और प्रत्येक विभाजन पर विचार की गई विशेषताओं को यादृच्छिक रूप से प्रतिबंधित करके कई असंबद्ध वृक्षों का निर्माण करते हैं, जिससे त्रुटि और विशेषता महत्व के अंतर्निहित अनुमानों के साथ एक मजबूत, सटीक एन्सेम्बल प्राप्त होता है।
योगात्मक मॉडलिंग के रूप में बूस्टिंग
बूस्टिंग आधार शिक्षार्थियों को क्रमिक रूप से फिट करती है, प्रत्येक वर्तमान एन्सेम्बल की अवशिष्ट त्रुटियों को ठीक करता है, जिसे एक हानि फ़ंक्शन के चरण-वार न्यूनीकरण के रूप में समझा जा सकता है और यह पूर्वाग्रह को कम करने की प्रवृत्ति रखता है।

Clinical relevance

ट्री-आधारित एन्सेम्बल, विशेष रूप से रैंडम फ़ॉरेस्ट और ग्रेडिएंट-बूस्टेड ट्री, सारणीबद्ध डेटा के लिए सबसे विश्वसनीय रूप से सटीक तरीकों में से हैं और नियमित रूप से प्रेडिक्शन प्रतियोगिताओं को जीतते हैं और औद्योगिक प्रणालियों को शक्ति प्रदान करते हैं; उनकी अंतर्निहित विशेषता महत्व के माप भी उन्हें यह समझने के लिए उपयोगी बनाते हैं कि कौन से इनपुट एक प्रेडिक्शन को संचालित करते हैं।

History

बैगिंग को 1996 में ब्रेमन द्वारा प्रस्तुत किया गया था, और उसके तुरंत बाद फ्रायंड और शापिर द्वारा एडाबूस्ट ने प्रदर्शित किया कि कमजोर शिक्षार्थियों को मजबूत लोगों में बढ़ावा दिया जा सकता है। 2001 में ब्रेमन के रैंडम फ़ॉरेस्ट और फ्राइडमैन की ग्रेडिएंट बूस्टिंग मशीनों ने इन विचारों को एकीकृत और विस्तारित किया, जिससे एन्सेम्बल संरचित प्रेडिक्शन कार्यों के लिए मानक दृष्टिकोण बन गए।

Key figures

  • Leo Breiman
  • Robert Schapire
  • Yoav Freund
  • Jerome Friedman

Related topics

Seminal works

  • breiman2001
  • hastie2009
  • freund1997

Frequently asked questions

बैगिंग और बूस्टिंग में क्या अंतर है?
बैगिंग रीसैंपल किए गए डेटा पर आधार मॉडलों को स्वतंत्र रूप से प्रशिक्षित करती है और विचरण को कम करने के लिए उन्हें औसत करती है। बूस्टिंग मॉडलों को क्रमिक रूप से प्रशिक्षित करती है, जिसमें प्रत्येक नया मॉडल वर्तमान एन्सेम्बल की त्रुटियों पर ध्यान केंद्रित करता है, जिससे पूर्वाग्रह कम होता है। बैगिंग स्वाभाविक रूप से समानांतर होती है; बूस्टिंग स्वाभाविक रूप से क्रमिक होती है।
रैंडम फ़ॉरेस्ट शायद ही कभी बुरी तरह से ओवरफिट क्यों होते हैं?
प्रत्येक वृक्ष को विशेषताओं के एक यादृच्छिक उपसमूह का उपयोग करके एक अलग बूटस्ट्रैप नमूने पर उगाया जाता है, इसलिए वृक्ष असंबद्ध होते हैं। कई असंबद्ध वृक्षों का औसत उनकी व्यक्तिगत विचरण का अधिकांश भाग रद्द कर देता है, और अधिक वृक्ष जोड़ने से ओवरफिटिंग नहीं बढ़ती है।

Methods for this concept

Related concepts