प्रिंसिपल कंपोनेंट एनालिसिस
प्रिंसिपल कंपोनेंट एनालिसिस (PCA) व्युत्पन्न चरों का एक ऑर्थोगोनल सेट (प्रिंसिपल कंपोनेंट) ज्ञात करता है, जो एक बहुभिन्नरूपी डेटासेट में अधिकतम संभव विचरण को उत्तरोत्तर कैप्चर करते हैं।
Definition
प्रिंसिपल कंपोनेंट एनालिसिस एक ऑर्थोगोनल लीनियर ट्रांसफॉर्मेशन है जो सहसंबद्ध चरों को असंबंधित कंपोनेंट के रूप में पुनः व्यक्त करता है, जिन्हें इस प्रकार व्यवस्थित किया जाता है कि पहले कंपोनेंट में सबसे बड़ा विचरण होता है और प्रत्येक क्रमिक कंपोनेंट में पिछले वाले के लिए ऑर्थोगोनल सबसे बड़ा विचरण होता है।
Scope
यह विषय कोवेरिएंस या कोरिलेशन मैट्रिक्स के आइगेनवेक्टर के रूप में प्रिंसिपल कंपोनेंट की परिभाषा, सिंगुलर वैल्यू डीकंपोजिशन के माध्यम से सर्वश्रेष्ठ निम्न-रैंक लीस्ट-स्क्वायर सन्निकटन के साथ उनकी समानता, लोडिंग और स्कोर की व्याख्या, कंपोनेंट की संख्या का चुनाव, और कोवेरिएंस-आधारित तथा कोरिलेशन-आधारित विश्लेषणों के बीच अंतर को शामिल करता है।
Core questions
- चरों के कौन से रैखिक संयोजन सबसे अधिक विचरण की व्याख्या करते हैं?
- डेटा को पर्याप्त रूप से सारांशित करने के लिए कितने कंपोनेंट की आवश्यकता होती है?
- विश्लेषण को कोवेरिएंस मैट्रिक्स के बजाय कोरिलेशन पर कब आधारित होना चाहिए?
- कंपोनेंट लोडिंग और स्कोर की व्याख्या कैसे की जाती है?
Key theories
- कोवेरिएंस मैट्रिक्स का आइगेन-डीकंपोजिशन
- प्रिंसिपल कंपोनेंट कोवेरिएंस मैट्रिक्स के आइगेनवेक्टर होते हैं, और प्रत्येक कंपोनेंट द्वारा समझाया गया विचरण संबंधित आइगेनवैल्यू के बराबर होता है, जो कुल विचरण का एक सटीक ऑर्थोगोनल डीकंपोजिशन देता है।
- सर्वश्रेष्ठ निम्न-रैंक सन्निकटन
- डेटा को प्रमुख प्रिंसिपल अक्षों पर प्रोजेक्ट करने से उस आयाम के सभी सबस्पेस के बीच वर्ग पुनर्निर्माण त्रुटियों का योग कम हो जाता है, यह वह गुण है जिसे पियर्सन ने मूल रूप से निकटतम फिट की लाइनों और तलों के रूप में प्रतिपादित किया था।
Clinical relevance
PCA का व्यापक रूप से विज़ुअलाइज़ेशन, डीनोइज़िंग, कम्प्रेशन, मल्टीकोलिनियरिटी निदान, और एक प्रीप्रोसेसिंग चरण के रूप में उपयोग किया जाता है जो रिग्रेशन और क्लासिफिकेशन के लिए असंबंधित विशेषताएँ उत्पन्न करता है।
History
पियर्सन ने 1901 में सर्वश्रेष्ठ-फिटिंग लाइनों और तलों के ज्यामितीय विचार को प्रस्तुत किया; हॉटेलिंग ने 1933 में एक सांख्यिकीय तकनीक के रूप में प्रिंसिपल कंपोनेंट को स्वतंत्र रूप से विकसित और नामित किया। इस विधि को बाद में सिंगुलर वैल्यू डीकंपोजिशन के साथ एकीकृत किया गया, जो इसका मानक संख्यात्मक कार्यान्वयन प्रदान करता है।
Debates
- कंपोनेंट की संख्या का चुनाव
- आइगेनवैल्यू को एक से ऊपर वाले कंपोनेंट को बनाए रखने, स्क्री प्लॉट का निरीक्षण करने, या एक संचयी-विचरण सीमा निर्धारित करने जैसे नियम असहमत हो सकते हैं, और कोई भी एकल मानदंड सार्वभौमिक रूप से स्वीकार्य नहीं है।
Key figures
- Karl Pearson
- Harold Hotelling
Related topics
Seminal works
- pearson1901
- hotelling1933
- jolliffe2002
Frequently asked questions
- PCA फैक्टर एनालिसिस से कैसे भिन्न है?
- PCA कंपोनेंट को सटीक रैखिक संयोजनों के रूप में बनाता है जो विचरण को अधिकतम करते हैं, जिसमें कोई स्पष्ट त्रुटि मॉडल नहीं होता है, जबकि फैक्टर एनालिसिस साझा कोवेरिएंस की व्याख्या करने के लिए अव्यक्त सामान्य कारकों और चर-विशिष्ट शोर को मानता है।
- क्या PCA से पहले चरों को मानकीकृत किया जाना चाहिए?
- जब चर अलग-अलग पैमानों पर होते हैं तो उन्हें मानकीकृत करना सामान्य होता है, जो कोरिलेशन मैट्रिक्स पर PCA करने के बराबर है, ताकि कोई भी एकल उच्च-विचरण वाला चर कंपोनेंट पर हावी न हो।