वर्गीकरण और विभेदक विश्लेषण
वर्गीकरण और विभेदक विश्लेषण में बहुभिन्नरूपी विधियाँ शामिल हैं जो मापी गई विशेषताओं और लेबल किए गए मामलों के नमूने का उपयोग करके अवलोकनों को पूर्वनिर्धारित समूहों को सौंपती हैं।
Definition
विभेदक विश्लेषण और वर्गीकरण नियमों का निर्माण है जो एक बहुभिन्नरूपी अवलोकन को कई ज्ञात समूहों में से एक को इस तरह से सौंपते हैं ताकि गलत वर्गीकरण की अपेक्षित लागत या त्रुटि को कम किया जा सके।
Scope
यह क्षेत्र बहुभिन्नरूपी अवलोकनों के पर्यवेक्षित वर्गीकरण को शामिल करता है। इसमें फिशर का रैखिक विभेदक और इसकी गाऊसी-मॉडल व्याख्या, असमान समूह सहप्रसरण के लिए द्विघात विभेदक विश्लेषण, वर्ग सदस्यता संभावनाओं के प्रत्यक्ष मॉडल के रूप में लॉजिस्टिक विभेदन, और मार्जिन-आधारित विधियाँ जैसे सपोर्ट वेक्टर मशीनें शामिल हैं। ध्यान निर्णय सीमाओं के निर्माण, ज्यामिति और मूल्यांकन पर है।
Sub-topics
Core questions
- किसी अवलोकन को उसकी मापी गई विशेषताओं से कई ज्ञात समूहों में से एक को कैसे सौंपा जाना चाहिए?
- कौन सी निर्णय सीमा अपेक्षित गलत वर्गीकरण लागत को कम करती है?
- रैखिक सीमाएँ कब पर्याप्त होती हैं और कब द्विघात या गैर-रैखिक सीमाओं की आवश्यकता होती है?
- वर्गीकारक प्रदर्शन का अनुमान आशावादी पूर्वाग्रह के बिना कैसे लगाया जाता है?
Key theories
- बेयस-इष्टतम वर्गीकरण
- प्रत्येक अवलोकन को उच्चतम पश्च संभाव्यता वाले समूह को सौंपना अपेक्षित गलत वर्गीकरण त्रुटि को कम करता है; पैरामीट्रिक विभेदक विधियाँ वितरण संबंधी मान्यताओं के तहत इन पश्च संभावनाओं का अनुमान लगाती हैं।
- फिशर का रैखिक विभेदक
- फिशर ने विशेषताओं के रैखिक संयोजन की तलाश की जो समूह के साधनों को समूह-के-भीतर फैलाव के सापेक्ष अधिकतम रूप से अलग करता है, जिससे एक विभेदक दिशा प्राप्त होती है, जो समान गाऊसी सहप्रसरण के तहत, बेयस नियम के साथ मेल खाती है।
Clinical relevance
वर्गीकरण विधियों का उपयोग उन सभी जगहों पर किया जाता है जहाँ मामलों को बहुभिन्नरूपी मापों से ज्ञात श्रेणियों में छाँटना होता है, जिसमें चिकित्सा निदान, क्रेडिट स्कोरिंग, प्रजाति पहचान और रिमोट-सेंसिंग भूमि-कवर मैपिंग शामिल हैं।
History
यह क्षेत्र फिशर के 1936 के रैखिक विभेदक के साथ शुरू हुआ जिसे वर्गीकरण मापों पर लागू किया गया था। संभाव्य और गाऊसी सूत्रीकरण इसके बाद आए, लॉजिस्टिक विभेदन ने वर्ग संभावनाओं का एक प्रत्यक्ष मॉडल प्रदान किया, और बीसवीं सदी के अंत में मार्जिन-आधारित और कर्नेल विधियों के विकास ने वर्गीकरण को उच्च-आयामी और गैर-रैखिक सेटिंग्स तक विस्तारित किया।
Debates
- उत्पादक बनाम विभेदक वर्गीकरण
- विभेदक विश्लेषण जैसी उत्पादक विधियाँ प्रत्येक वर्ग के भीतर विशेषता वितरण को मॉडल करती हैं, जबकि लॉजिस्टिक रिग्रेशन और सपोर्ट वेक्टर मशीन जैसी विभेदक विधियाँ सीधे सीमा या वर्ग संभाव्यता को मॉडल करती हैं; उनके सापेक्ष गुण नमूना आकार और वितरण संबंधी मान्यताओं के कितनी अच्छी तरह से लागू होने पर निर्भर करते हैं।
Key figures
- Ronald A. Fisher
- Vladimir Vapnik
Related topics
Seminal works
- fisher1936
- hastie2009
- johnson2007
Frequently asked questions
- वर्गीकरण क्लस्टरिंग से कैसे भिन्न है?
- वर्गीकरण पर्यवेक्षित है: समूह पहले से ज्ञात होते हैं और एक लेबल किया गया प्रशिक्षण नमूना उपलब्ध होता है। क्लस्टरिंग अप्रत्याशित है और पूर्वनिर्धारित लेबल के बिना समूहीकरण का पता लगाती है।
- होल्ड-आउट डेटा पर त्रुटि का अनुमान क्यों लगाया जाता है?
- एक वर्गीकारक को फिट करने के लिए उपयोग किए गए समान डेटा पर मापी गई त्रुटि आशावादी रूप से पक्षपाती होती है, इसलिए वास्तविक पूर्वानुमानित प्रदर्शन का आकलन करने के लिए क्रॉस-वैलिडेशन या एक परीक्षण सेट से आउट-ऑफ-सैंपल अनुमानों की आवश्यकता होती है।