क्लस्टर विश्लेषण
क्लस्टर विश्लेषण बहुभिन्नरूपी प्रेक्षणों को समूहों में समूहित करता है ताकि एक क्लस्टर के सदस्य दूसरे क्लस्टर के सदस्यों की तुलना में एक-दूसरे के अधिक समान हों, बिना किसी पूर्व-निर्धारित लेबल के।
Definition
क्लस्टर विश्लेषण वस्तुओं का एक अनसुपरवाइज्ड विभाजन या पदानुक्रमित संगठन है जो समानता या असमानता के माप पर आधारित होता है, जिसमें समूह डेटा से खोजे जाते हैं न कि पहले से निर्दिष्ट किए जाते हैं।
Scope
यह क्षेत्र डेटा के अनसुपरवाइज्ड समूहन को कवर करता है। इसमें पदानुक्रमित विधियाँ शामिल हैं जो क्लस्टरों का एक नेस्टेड ट्री बनाती हैं, विभाजन विधियाँ जैसे कि k-मीन्स जो निश्चित संख्या में क्लस्टरों के लिए एक इंट्रा-क्लस्टर मानदंड को अनुकूलित करती हैं, और मॉडल-आधारित विधियाँ जो क्लस्टरों को मिश्रण वितरण के घटकों के रूप में मानती हैं। यह दूरी, लिंकेज और क्लस्टरों की संख्या के चुनाव, और क्लस्टरिंग समाधानों के सत्यापन को भी संबोधित करता है।
Sub-topics
Core questions
- अनलेबल्ड बहुभिन्नरूपी डेटा में प्राकृतिक समूहन कैसे खोजे जा सकते हैं?
- वस्तुओं के लिए समानता और असमानता को कैसे परिभाषित किया जाता है?
- कितने क्लस्टर मौजूद हैं, और उस संख्या का चुनाव कैसे किया जाता है?
- क्लस्टरिंग समाधान को कैसे मान्य और व्याख्या किया जाता है?
Key theories
- दूरी-आधारित समूहन
- अधिकांश क्लस्टरिंग विधियाँ वस्तुओं के बीच असमानता के माप और एक नियम पर आधारित होती हैं, जैसे कि एक लिंकेज या एक इंट्रा-क्लस्टर वर्गों का योग, जो उन असमानताओं को समूहों में बदल देता है।
- क्लस्टरों का मिश्रण-मॉडल दृष्टिकोण
- मॉडल-आधारित क्लस्टरिंग प्रत्येक क्लस्टर को एक संभाव्यता मिश्रण के घटक के रूप में मानती है, ताकि क्लस्टरिंग पैरामीटर अनुमान बन जाए और क्लस्टरों की संख्या एक मॉडल-चयन समस्या बन जाए।
Clinical relevance
क्लस्टर विश्लेषण का उपयोग विभिन्न क्षेत्रों में अनलेबल्ड डेटा में संरचना की खोज के लिए किया जाता है, जिसमें बाजार विभाजन, वर्गीकरण, जीन-अभिव्यक्ति समूहन, छवि विभाजन और रोगी उपप्रकारों की पहचान शामिल है।
History
संख्यात्मक क्लस्टरिंग बीसवीं सदी के मध्य के संख्यात्मक वर्गीकरण से विकसित हुई और इसे पदानुक्रमित और विभाजन एल्गोरिदम में व्यवस्थित किया गया। संभाव्य मॉडल-आधारित क्लस्टरिंग, जो परिमित मिश्रण मॉडल और एक्सपेक्टेशन-मैक्सिमाइजेशन एल्गोरिथम पर आधारित है, ने बाद में इस क्षेत्र को संभाव्यता के आधार पर स्थापित किया।
Debates
- क्लस्टरों की संख्या का निर्धारण
- क्लस्टरों की संख्या चुनने के लिए कोई एक सहमत विधि नहीं है; मानदंड गैप स्टैटिस्टिक्स और सिलुएट चौड़ाई से लेकर मिश्रण मॉडल के लिए सूचना मानदंडों तक भिन्न होते हैं, और वे असहमत हो सकते हैं।
Key figures
- Leonard Kaufman
- Peter Rousseeuw
- Brian Everitt
Related topics
Seminal works
- everitt2011
- kaufman1990
- hastie2009
Frequently asked questions
- क्लस्टरिंग वर्गीकरण से कैसे भिन्न है?
- क्लस्टरिंग अनसुपरवाइज्ड है और अनलेबल्ड डेटा से समूहों की खोज करती है, जबकि वर्गीकरण सुपरवाइज्ड है और प्रेक्षणों को उन समूहों को असाइन करता है जो पहले से ज्ञात और लेबल किए गए हैं।
- क्या क्लस्टरिंग हमेशा सार्थक समूह ढूंढती है?
- नहीं। क्लस्टरिंग एल्गोरिदम किसी भी डेटासेट को विभाजित करेंगे, इसलिए समाधानों को मान्य और व्याख्या किया जाना चाहिए; स्पष्ट क्लस्टर वास्तविक संरचना के बजाय विधि या दूरी के चुनाव को दर्शा सकते हैं।