प्रमुख घटक विश्लेषण वास्तव में क्या गणना करता है?

यह नए अक्षों, प्रमुख घटकों को ढूंढता है, जो ऑर्थोगोनल दिशाएँ हैं जिन्हें डेटा के विचरण की मात्रा के आधार पर क्रमबद्ध किया जाता है। शीर्ष कुछ घटकों को रखने से न्यूनतम-वर्ग अर्थ में डेटा का सबसे अच्छा रैखिक निम्न-आयामी सन्निकटन मिलता है।

सभी सुविधाओं का उपयोग करने के बजाय आयामों को कम क्यों करें?

उच्च आयामों में डेटा विरल हो जाता है और दूरियाँ कम सार्थक होती हैं, मॉडल अधिक आसानी से ओवरफिट हो जाते हैं, और गणना धीमी हो जाती है। कुछ जानकारीपूर्ण निर्देशांकों तक कम करने से सामान्यीकरण, गति और डेटा को विज़ुअलाइज़ और व्याख्या करने की क्षमता में सुधार हो सकता है।

आयामी कमी

आयामी कमी उच्च-आयामी डेटा को कम संख्या में निर्देशांकों के साथ प्रस्तुत करती है जो इसकी सबसे महत्वपूर्ण संरचना को संरक्षित करते हैं, जिससे विज़ुअलाइज़ेशन, संपीड़न और डाउनस्ट्रीम लर्निंग में सहायता मिलती है।

PaperMind से विषय खोजेंजल्द हीFind papers & topics

Tools & resources

स्लाइड डाउनलोड करें

Learn & explore

वीडियोजल्द ही

Definition

आयामी कमी डेटा को एक उच्च-आयामी स्थान से निम्न-आयामी स्थान में मैप करती है, जबकि यथासंभव प्रासंगिक जानकारी को बनाए रखती है, या तो अधिकतम विचरण की दिशाओं पर रैखिक प्रक्षेपण द्वारा या अरेखीय एम्बेडिंग द्वारा जो डेटा के अंतर्निहित मैनिफोल्ड का सम्मान करते हैं।

Scope

यह विषय रैखिक विधियों जैसे प्रमुख घटक विश्लेषण और कारक विश्लेषण को शामिल करता है जो सबसे बड़े विचरण की दिशाओं का पता लगाते हैं, और अरेखीय मैनिफोल्ड-लर्निंग और एम्बेडिंग विधियों को भी शामिल करता है जो घुमावदार निम्न-आयामी संरचना को उजागर करते हैं। यह आयामीता के अभिशाप, पुनर्निर्माण त्रुटि, और वैश्विक ज्यामिति तथा स्थानीय पड़ोस को संरक्षित करने के बीच के व्यापार-बंद को संबोधित करता है।

Core questions

कई सहसंबद्ध विशेषताओं को कुछ में कैसे संक्षेपित किया जा सकता है?
प्रमुख घटक विश्लेषण क्या अनुकूलित करता है?
अरेखीय विधियाँ घुमावदार मैनिफोल्ड्स को कैसे पुनर्प्राप्त करती हैं?
कौन सी जानकारी खो जाती है और उस हानि को कैसे मापा जाता है?

Key theories

प्रमुख घटक विश्लेषण: प्रमुख घटक विश्लेषण डेटा को सबसे बड़े विचरण की ऑर्थोगोनल दिशाओं पर प्रोजेक्ट करता है, जो न्यूनतम-वर्ग अर्थ में सर्वोत्तम रैखिक निम्न-आयामी सन्निकटन देता है और भिन्नता के प्रमुख पैटर्न को प्रकट करता है।
संभाव्य अव्यक्त रैखिक मॉडल: संभाव्य प्रमुख घटक विश्लेषण और कारक विश्लेषण आयामी कमी को एक अव्यक्त-चर मॉडल के रूप में प्रस्तुत करते हैं, जो एक जनरेटिव व्याख्या और शोर तथा अनुपलब्ध डेटा को संभालने का एक सैद्धांतिक तरीका प्रदान करते हैं।
मैनिफोल्ड लर्निंग: अरेखीय विधियाँ मानती हैं कि डेटा एक निम्न-आयामी मैनिफोल्ड के पास स्थित है और एम्बेडिंग का निर्माण करती हैं जो स्थानीय पड़ोस के संबंधों को संरक्षित करती हैं, ऐसी संरचना को कैप्चर करती हैं जिसे रैखिक प्रक्षेपण नहीं कर सकते।

Clinical relevance

आयामी कमी का उपयोग जटिल डेटासेट को विज़ुअलाइज़ करने, संकेतों को संपीड़ित और डिनोइज़ करने, और कॉम्पैक्ट सुविधाएँ उत्पन्न करने के लिए किया जाता है जो डाउनस्ट्रीम लर्निंग को तेज़ और ओवरफिटिंग के प्रति कम प्रवण बनाते हैं; यह सीधे आयामीता के अभिशाप को संबोधित करता है, जिसमें सुविधाओं की संख्या बढ़ने पर दूरियाँ और घनत्व अर्थहीन हो जाते हैं।

History

प्रमुख घटक विश्लेषण को पियर्सन द्वारा प्रस्तुत किया गया था और बीसवीं सदी की शुरुआत में हॉटेलिंग द्वारा विकसित किया गया था। कारक विश्लेषण साइकोमेट्रिक्स में उभरा, और 2000 के दशक की शुरुआत से अरेखीय मैनिफोल्ड-लर्निंग और पड़ोसी-एम्बेडिंग विधियों ने आयामी कमी को घुमावदार निम्न-आयामी संरचना वाले डेटा तक विस्तारित किया, जो उच्च-आयामी विज़ुअलाइज़ेशन के लिए मानक उपकरण बन गए।

Key figures

Karl Pearson
Harold Hotelling
Trevor Hastie

Seminal works

hastie2009
bishop2006
murphy2012

Frequently asked questions

प्रमुख घटक विश्लेषण वास्तव में क्या गणना करता है?: यह नए अक्षों, प्रमुख घटकों को ढूंढता है, जो ऑर्थोगोनल दिशाएँ हैं जिन्हें डेटा के विचरण की मात्रा के आधार पर क्रमबद्ध किया जाता है। शीर्ष कुछ घटकों को रखने से न्यूनतम-वर्ग अर्थ में डेटा का सबसे अच्छा रैखिक निम्न-आयामी सन्निकटन मिलता है।
सभी सुविधाओं का उपयोग करने के बजाय आयामों को कम क्यों करें?: उच्च आयामों में डेटा विरल हो जाता है और दूरियाँ कम सार्थक होती हैं, मॉडल अधिक आसानी से ओवरफिट हो जाते हैं, और गणना धीमी हो जाती है। कुछ जानकारीपूर्ण निर्देशांकों तक कम करने से सामान्यीकरण, गति और डेटा को विज़ुअलाइज़ और व्याख्या करने की क्षमता में सुधार हो सकता है।