बैगिंग और बूस्टिंग में क्या अंतर है?

बैगिंग रीसैंपल किए गए डेटा पर आधार मॉडलों को स्वतंत्र रूप से प्रशिक्षित करती है और विचरण को कम करने के लिए उन्हें औसत करती है। बूस्टिंग मॉडलों को क्रमिक रूप से प्रशिक्षित करती है, जिसमें प्रत्येक नया मॉडल वर्तमान एन्सेम्बल की त्रुटियों पर ध्यान केंद्रित करता है, जिससे पूर्वाग्रह कम होता है। बैगिंग स्वाभाविक रूप से समानांतर होती है; बूस्टिंग स्वाभाविक रूप से क्रमिक होती है।

रैंडम फ़ॉरेस्ट शायद ही कभी बुरी तरह से ओवरफिट क्यों होते हैं?

प्रत्येक वृक्ष को विशेषताओं के एक यादृच्छिक उपसमूह का उपयोग करके एक अलग बूटस्ट्रैप नमूने पर उगाया जाता है, इसलिए वृक्ष असंबद्ध होते हैं। कई असंबद्ध वृक्षों का औसत उनकी व्यक्तिगत विचरण का अधिकांश भाग रद्द कर देता है, और अधिक वृक्ष जोड़ने से ओवरफिटिंग नहीं बढ़ती है।

एन्सेम्बल पद्धतियाँ

एन्सेम्बल पद्धतियाँ कई व्यक्तिगत मॉडलों को एक एकल प्रेडिक्टर में संयोजित करती हैं, जिससे किसी एक सदस्य से बेहतर सटीकता प्राप्त करने के लिए विचरण या पूर्वाग्रह कम होता है।

PaperMind से विषय खोजेंजल्द हीFind papers & topics

Tools & resources

स्लाइड डाउनलोड करें

Learn & explore

वीडियोजल्द ही

Definition

एक एन्सेम्बल विधि आधार मॉडलों के संग्रह को प्रशिक्षित करती है और उनके प्रेडिक्शन को संयोजित करती है, उदाहरण के लिए औसत या भारित मतदान द्वारा; बैगिंग-शैली के एन्सेम्बल यादृच्छिक मॉडलों पर औसत करके विचरण को कम करते हैं, जबकि बूस्टिंग-शैली के एन्सेम्बल पहले से गलत वर्गीकृत उदाहरणों पर क्रमिक रूप से जोर देकर पूर्वाग्रह को कम करते हैं।

Scope

यह विषय कई शिक्षार्थियों को एकत्रित करने वाली तकनीकों को शामिल करता है: बैगिंग और बूटस्ट्रैप एकत्रीकरण, रैंडम फ़ॉरेस्ट जो डेटा और विशेषताओं दोनों को यादृच्छिक करते हैं, और बूस्टिंग पद्धतियाँ जैसे एडाबूस्ट और ग्रेडिएंट बूस्टिंग जो पिछली त्रुटियों को ठीक करने के लिए मॉडलों को क्रमिक रूप से फिट करती हैं। यह इस बात पर प्रकाश डालता है कि एन्सेम्बल त्रुटि को क्यों कम करते हैं, औसत बनाम बूस्टिंग के पूर्वाग्रह-विचरण प्रभाव, और मॉडल विविधता की भूमिका।

Core questions

कई मॉडलों को संयोजित करना अक्सर सबसे अच्छे एकल मॉडल को क्यों हरा देता है?
बैगिंग और बूस्टिंग किस त्रुटि को कम करने में कैसे भिन्न हैं?
आधार शिक्षार्थियों के बीच विविधता की क्या भूमिका है?
ग्रेडिएंट बूस्टिंग योगात्मक मॉडलों को चरण-दर-चरण कैसे फिट करता है?

Key theories

बैगिंग और विचरण में कमी: बूटस्ट्रैप रीसैंपल पर प्रशिक्षित मॉडलों के प्रेडिक्शन का औसत विचरण को बहुत अधिक पूर्वाग्रह बढ़ाए बिना कम करता है, जो अस्थिर, उच्च-विचरण वाले आधार शिक्षार्थियों जैसे गहरे निर्णय वृक्षों के लिए सबसे प्रभावी है।
रैंडम फ़ॉरेस्ट: रैंडम फ़ॉरेस्ट डेटा को रीसैंपल करके और प्रत्येक विभाजन पर विचार की गई विशेषताओं को यादृच्छिक रूप से प्रतिबंधित करके कई असंबद्ध वृक्षों का निर्माण करते हैं, जिससे त्रुटि और विशेषता महत्व के अंतर्निहित अनुमानों के साथ एक मजबूत, सटीक एन्सेम्बल प्राप्त होता है।
योगात्मक मॉडलिंग के रूप में बूस्टिंग: बूस्टिंग आधार शिक्षार्थियों को क्रमिक रूप से फिट करती है, प्रत्येक वर्तमान एन्सेम्बल की अवशिष्ट त्रुटियों को ठीक करता है, जिसे एक हानि फ़ंक्शन के चरण-वार न्यूनीकरण के रूप में समझा जा सकता है और यह पूर्वाग्रह को कम करने की प्रवृत्ति रखता है।

Clinical relevance

ट्री-आधारित एन्सेम्बल, विशेष रूप से रैंडम फ़ॉरेस्ट और ग्रेडिएंट-बूस्टेड ट्री, सारणीबद्ध डेटा के लिए सबसे विश्वसनीय रूप से सटीक तरीकों में से हैं और नियमित रूप से प्रेडिक्शन प्रतियोगिताओं को जीतते हैं और औद्योगिक प्रणालियों को शक्ति प्रदान करते हैं; उनकी अंतर्निहित विशेषता महत्व के माप भी उन्हें यह समझने के लिए उपयोगी बनाते हैं कि कौन से इनपुट एक प्रेडिक्शन को संचालित करते हैं।

History

बैगिंग को 1996 में ब्रेमन द्वारा प्रस्तुत किया गया था, और उसके तुरंत बाद फ्रायंड और शापिर द्वारा एडाबूस्ट ने प्रदर्शित किया कि कमजोर शिक्षार्थियों को मजबूत लोगों में बढ़ावा दिया जा सकता है। 2001 में ब्रेमन के रैंडम फ़ॉरेस्ट और फ्राइडमैन की ग्रेडिएंट बूस्टिंग मशीनों ने इन विचारों को एकीकृत और विस्तारित किया, जिससे एन्सेम्बल संरचित प्रेडिक्शन कार्यों के लिए मानक दृष्टिकोण बन गए।

Key figures

Leo Breiman
Robert Schapire
Yoav Freund
Jerome Friedman

Seminal works

breiman2001
hastie2009
freund1997

Frequently asked questions

बैगिंग और बूस्टिंग में क्या अंतर है?: बैगिंग रीसैंपल किए गए डेटा पर आधार मॉडलों को स्वतंत्र रूप से प्रशिक्षित करती है और विचरण को कम करने के लिए उन्हें औसत करती है। बूस्टिंग मॉडलों को क्रमिक रूप से प्रशिक्षित करती है, जिसमें प्रत्येक नया मॉडल वर्तमान एन्सेम्बल की त्रुटियों पर ध्यान केंद्रित करता है, जिससे पूर्वाग्रह कम होता है। बैगिंग स्वाभाविक रूप से समानांतर होती है; बूस्टिंग स्वाभाविक रूप से क्रमिक होती है।
रैंडम फ़ॉरेस्ट शायद ही कभी बुरी तरह से ओवरफिट क्यों होते हैं?: प्रत्येक वृक्ष को विशेषताओं के एक यादृच्छिक उपसमूह का उपयोग करके एक अलग बूटस्ट्रैप नमूने पर उगाया जाता है, इसलिए वृक्ष असंबद्ध होते हैं। कई असंबद्ध वृक्षों का औसत उनकी व्यक्तिगत विचरण का अधिकांश भाग रद्द कर देता है, और अधिक वृक्ष जोड़ने से ओवरफिटिंग नहीं बढ़ती है।