आयामी कमी
आयामी कमी उच्च-आयामी डेटा को कम संख्या में निर्देशांकों के साथ प्रस्तुत करती है जो इसकी सबसे महत्वपूर्ण संरचना को संरक्षित करते हैं, जिससे विज़ुअलाइज़ेशन, संपीड़न और डाउनस्ट्रीम लर्निंग में सहायता मिलती है।
Definition
आयामी कमी डेटा को एक उच्च-आयामी स्थान से निम्न-आयामी स्थान में मैप करती है, जबकि यथासंभव प्रासंगिक जानकारी को बनाए रखती है, या तो अधिकतम विचरण की दिशाओं पर रैखिक प्रक्षेपण द्वारा या अरेखीय एम्बेडिंग द्वारा जो डेटा के अंतर्निहित मैनिफोल्ड का सम्मान करते हैं।
Scope
यह विषय रैखिक विधियों जैसे प्रमुख घटक विश्लेषण और कारक विश्लेषण को शामिल करता है जो सबसे बड़े विचरण की दिशाओं का पता लगाते हैं, और अरेखीय मैनिफोल्ड-लर्निंग और एम्बेडिंग विधियों को भी शामिल करता है जो घुमावदार निम्न-आयामी संरचना को उजागर करते हैं। यह आयामीता के अभिशाप, पुनर्निर्माण त्रुटि, और वैश्विक ज्यामिति तथा स्थानीय पड़ोस को संरक्षित करने के बीच के व्यापार-बंद को संबोधित करता है।
Core questions
- कई सहसंबद्ध विशेषताओं को कुछ में कैसे संक्षेपित किया जा सकता है?
- प्रमुख घटक विश्लेषण क्या अनुकूलित करता है?
- अरेखीय विधियाँ घुमावदार मैनिफोल्ड्स को कैसे पुनर्प्राप्त करती हैं?
- कौन सी जानकारी खो जाती है और उस हानि को कैसे मापा जाता है?
Key theories
- प्रमुख घटक विश्लेषण
- प्रमुख घटक विश्लेषण डेटा को सबसे बड़े विचरण की ऑर्थोगोनल दिशाओं पर प्रोजेक्ट करता है, जो न्यूनतम-वर्ग अर्थ में सर्वोत्तम रैखिक निम्न-आयामी सन्निकटन देता है और भिन्नता के प्रमुख पैटर्न को प्रकट करता है।
- संभाव्य अव्यक्त रैखिक मॉडल
- संभाव्य प्रमुख घटक विश्लेषण और कारक विश्लेषण आयामी कमी को एक अव्यक्त-चर मॉडल के रूप में प्रस्तुत करते हैं, जो एक जनरेटिव व्याख्या और शोर तथा अनुपलब्ध डेटा को संभालने का एक सैद्धांतिक तरीका प्रदान करते हैं।
- मैनिफोल्ड लर्निंग
- अरेखीय विधियाँ मानती हैं कि डेटा एक निम्न-आयामी मैनिफोल्ड के पास स्थित है और एम्बेडिंग का निर्माण करती हैं जो स्थानीय पड़ोस के संबंधों को संरक्षित करती हैं, ऐसी संरचना को कैप्चर करती हैं जिसे रैखिक प्रक्षेपण नहीं कर सकते।
Clinical relevance
आयामी कमी का उपयोग जटिल डेटासेट को विज़ुअलाइज़ करने, संकेतों को संपीड़ित और डिनोइज़ करने, और कॉम्पैक्ट सुविधाएँ उत्पन्न करने के लिए किया जाता है जो डाउनस्ट्रीम लर्निंग को तेज़ और ओवरफिटिंग के प्रति कम प्रवण बनाते हैं; यह सीधे आयामीता के अभिशाप को संबोधित करता है, जिसमें सुविधाओं की संख्या बढ़ने पर दूरियाँ और घनत्व अर्थहीन हो जाते हैं।
History
प्रमुख घटक विश्लेषण को पियर्सन द्वारा प्रस्तुत किया गया था और बीसवीं सदी की शुरुआत में हॉटेलिंग द्वारा विकसित किया गया था। कारक विश्लेषण साइकोमेट्रिक्स में उभरा, और 2000 के दशक की शुरुआत से अरेखीय मैनिफोल्ड-लर्निंग और पड़ोसी-एम्बेडिंग विधियों ने आयामी कमी को घुमावदार निम्न-आयामी संरचना वाले डेटा तक विस्तारित किया, जो उच्च-आयामी विज़ुअलाइज़ेशन के लिए मानक उपकरण बन गए।
Key figures
- Karl Pearson
- Harold Hotelling
- Trevor Hastie
Related topics
Seminal works
- hastie2009
- bishop2006
- murphy2012
Frequently asked questions
- प्रमुख घटक विश्लेषण वास्तव में क्या गणना करता है?
- यह नए अक्षों, प्रमुख घटकों को ढूंढता है, जो ऑर्थोगोनल दिशाएँ हैं जिन्हें डेटा के विचरण की मात्रा के आधार पर क्रमबद्ध किया जाता है। शीर्ष कुछ घटकों को रखने से न्यूनतम-वर्ग अर्थ में डेटा का सबसे अच्छा रैखिक निम्न-आयामी सन्निकटन मिलता है।
- सभी सुविधाओं का उपयोग करने के बजाय आयामों को कम क्यों करें?
- उच्च आयामों में डेटा विरल हो जाता है और दूरियाँ कम सार्थक होती हैं, मॉडल अधिक आसानी से ओवरफिट हो जाते हैं, और गणना धीमी हो जाती है। कुछ जानकारीपूर्ण निर्देशांकों तक कम करने से सामान्यीकरण, गति और डेटा को विज़ुअलाइज़ और व्याख्या करने की क्षमता में सुधार हो सकता है।