एन्सेम्बल पद्धतियाँ
एन्सेम्बल पद्धतियाँ कई व्यक्तिगत मॉडलों को एक एकल प्रेडिक्टर में संयोजित करती हैं, जिससे किसी एक सदस्य से बेहतर सटीकता प्राप्त करने के लिए विचरण या पूर्वाग्रह कम होता है।
Definition
एक एन्सेम्बल विधि आधार मॉडलों के संग्रह को प्रशिक्षित करती है और उनके प्रेडिक्शन को संयोजित करती है, उदाहरण के लिए औसत या भारित मतदान द्वारा; बैगिंग-शैली के एन्सेम्बल यादृच्छिक मॉडलों पर औसत करके विचरण को कम करते हैं, जबकि बूस्टिंग-शैली के एन्सेम्बल पहले से गलत वर्गीकृत उदाहरणों पर क्रमिक रूप से जोर देकर पूर्वाग्रह को कम करते हैं।
Scope
यह विषय कई शिक्षार्थियों को एकत्रित करने वाली तकनीकों को शामिल करता है: बैगिंग और बूटस्ट्रैप एकत्रीकरण, रैंडम फ़ॉरेस्ट जो डेटा और विशेषताओं दोनों को यादृच्छिक करते हैं, और बूस्टिंग पद्धतियाँ जैसे एडाबूस्ट और ग्रेडिएंट बूस्टिंग जो पिछली त्रुटियों को ठीक करने के लिए मॉडलों को क्रमिक रूप से फिट करती हैं। यह इस बात पर प्रकाश डालता है कि एन्सेम्बल त्रुटि को क्यों कम करते हैं, औसत बनाम बूस्टिंग के पूर्वाग्रह-विचरण प्रभाव, और मॉडल विविधता की भूमिका।
Core questions
- कई मॉडलों को संयोजित करना अक्सर सबसे अच्छे एकल मॉडल को क्यों हरा देता है?
- बैगिंग और बूस्टिंग किस त्रुटि को कम करने में कैसे भिन्न हैं?
- आधार शिक्षार्थियों के बीच विविधता की क्या भूमिका है?
- ग्रेडिएंट बूस्टिंग योगात्मक मॉडलों को चरण-दर-चरण कैसे फिट करता है?
Key theories
- बैगिंग और विचरण में कमी
- बूटस्ट्रैप रीसैंपल पर प्रशिक्षित मॉडलों के प्रेडिक्शन का औसत विचरण को बहुत अधिक पूर्वाग्रह बढ़ाए बिना कम करता है, जो अस्थिर, उच्च-विचरण वाले आधार शिक्षार्थियों जैसे गहरे निर्णय वृक्षों के लिए सबसे प्रभावी है।
- रैंडम फ़ॉरेस्ट
- रैंडम फ़ॉरेस्ट डेटा को रीसैंपल करके और प्रत्येक विभाजन पर विचार की गई विशेषताओं को यादृच्छिक रूप से प्रतिबंधित करके कई असंबद्ध वृक्षों का निर्माण करते हैं, जिससे त्रुटि और विशेषता महत्व के अंतर्निहित अनुमानों के साथ एक मजबूत, सटीक एन्सेम्बल प्राप्त होता है।
- योगात्मक मॉडलिंग के रूप में बूस्टिंग
- बूस्टिंग आधार शिक्षार्थियों को क्रमिक रूप से फिट करती है, प्रत्येक वर्तमान एन्सेम्बल की अवशिष्ट त्रुटियों को ठीक करता है, जिसे एक हानि फ़ंक्शन के चरण-वार न्यूनीकरण के रूप में समझा जा सकता है और यह पूर्वाग्रह को कम करने की प्रवृत्ति रखता है।
Clinical relevance
ट्री-आधारित एन्सेम्बल, विशेष रूप से रैंडम फ़ॉरेस्ट और ग्रेडिएंट-बूस्टेड ट्री, सारणीबद्ध डेटा के लिए सबसे विश्वसनीय रूप से सटीक तरीकों में से हैं और नियमित रूप से प्रेडिक्शन प्रतियोगिताओं को जीतते हैं और औद्योगिक प्रणालियों को शक्ति प्रदान करते हैं; उनकी अंतर्निहित विशेषता महत्व के माप भी उन्हें यह समझने के लिए उपयोगी बनाते हैं कि कौन से इनपुट एक प्रेडिक्शन को संचालित करते हैं।
History
बैगिंग को 1996 में ब्रेमन द्वारा प्रस्तुत किया गया था, और उसके तुरंत बाद फ्रायंड और शापिर द्वारा एडाबूस्ट ने प्रदर्शित किया कि कमजोर शिक्षार्थियों को मजबूत लोगों में बढ़ावा दिया जा सकता है। 2001 में ब्रेमन के रैंडम फ़ॉरेस्ट और फ्राइडमैन की ग्रेडिएंट बूस्टिंग मशीनों ने इन विचारों को एकीकृत और विस्तारित किया, जिससे एन्सेम्बल संरचित प्रेडिक्शन कार्यों के लिए मानक दृष्टिकोण बन गए।
Key figures
- Leo Breiman
- Robert Schapire
- Yoav Freund
- Jerome Friedman
Related topics
Seminal works
- breiman2001
- hastie2009
- freund1997
Frequently asked questions
- बैगिंग और बूस्टिंग में क्या अंतर है?
- बैगिंग रीसैंपल किए गए डेटा पर आधार मॉडलों को स्वतंत्र रूप से प्रशिक्षित करती है और विचरण को कम करने के लिए उन्हें औसत करती है। बूस्टिंग मॉडलों को क्रमिक रूप से प्रशिक्षित करती है, जिसमें प्रत्येक नया मॉडल वर्तमान एन्सेम्बल की त्रुटियों पर ध्यान केंद्रित करता है, जिससे पूर्वाग्रह कम होता है। बैगिंग स्वाभाविक रूप से समानांतर होती है; बूस्टिंग स्वाभाविक रूप से क्रमिक होती है।
- रैंडम फ़ॉरेस्ट शायद ही कभी बुरी तरह से ओवरफिट क्यों होते हैं?
- प्रत्येक वृक्ष को विशेषताओं के एक यादृच्छिक उपसमूह का उपयोग करके एक अलग बूटस्ट्रैप नमूने पर उगाया जाता है, इसलिए वृक्ष असंबद्ध होते हैं। कई असंबद्ध वृक्षों का औसत उनकी व्यक्तिगत विचरण का अधिकांश भाग रद्द कर देता है, और अधिक वृक्ष जोड़ने से ओवरफिटिंग नहीं बढ़ती है।