क्लस्टरिंग वर्गीकरण से कैसे भिन्न है?

क्लस्टरिंग अनसुपरवाइज्ड है और अनलेबल्ड डेटा से समूहों की खोज करती है, जबकि वर्गीकरण सुपरवाइज्ड है और प्रेक्षणों को उन समूहों को असाइन करता है जो पहले से ज्ञात और लेबल किए गए हैं।

क्या क्लस्टरिंग हमेशा सार्थक समूह ढूंढती है?

नहीं। क्लस्टरिंग एल्गोरिदम किसी भी डेटासेट को विभाजित करेंगे, इसलिए समाधानों को मान्य और व्याख्या किया जाना चाहिए; स्पष्ट क्लस्टर वास्तविक संरचना के बजाय विधि या दूरी के चुनाव को दर्शा सकते हैं।

क्लस्टर विश्लेषण

क्लस्टर विश्लेषण बहुभिन्नरूपी प्रेक्षणों को समूहों में समूहित करता है ताकि एक क्लस्टर के सदस्य दूसरे क्लस्टर के सदस्यों की तुलना में एक-दूसरे के अधिक समान हों, बिना किसी पूर्व-निर्धारित लेबल के।

PaperMind से विषय खोजेंजल्द हीFind papers & topics

Tools & resources

स्लाइड डाउनलोड करें

Learn & explore

वीडियोजल्द ही

Definition

क्लस्टर विश्लेषण वस्तुओं का एक अनसुपरवाइज्ड विभाजन या पदानुक्रमित संगठन है जो समानता या असमानता के माप पर आधारित होता है, जिसमें समूह डेटा से खोजे जाते हैं न कि पहले से निर्दिष्ट किए जाते हैं।

Scope

यह क्षेत्र डेटा के अनसुपरवाइज्ड समूहन को कवर करता है। इसमें पदानुक्रमित विधियाँ शामिल हैं जो क्लस्टरों का एक नेस्टेड ट्री बनाती हैं, विभाजन विधियाँ जैसे कि k-मीन्स जो निश्चित संख्या में क्लस्टरों के लिए एक इंट्रा-क्लस्टर मानदंड को अनुकूलित करती हैं, और मॉडल-आधारित विधियाँ जो क्लस्टरों को मिश्रण वितरण के घटकों के रूप में मानती हैं। यह दूरी, लिंकेज और क्लस्टरों की संख्या के चुनाव, और क्लस्टरिंग समाधानों के सत्यापन को भी संबोधित करता है।

Sub-topics

Core questions

अनलेबल्ड बहुभिन्नरूपी डेटा में प्राकृतिक समूहन कैसे खोजे जा सकते हैं?
वस्तुओं के लिए समानता और असमानता को कैसे परिभाषित किया जाता है?
कितने क्लस्टर मौजूद हैं, और उस संख्या का चुनाव कैसे किया जाता है?
क्लस्टरिंग समाधान को कैसे मान्य और व्याख्या किया जाता है?

Key theories

दूरी-आधारित समूहन: अधिकांश क्लस्टरिंग विधियाँ वस्तुओं के बीच असमानता के माप और एक नियम पर आधारित होती हैं, जैसे कि एक लिंकेज या एक इंट्रा-क्लस्टर वर्गों का योग, जो उन असमानताओं को समूहों में बदल देता है।
क्लस्टरों का मिश्रण-मॉडल दृष्टिकोण: मॉडल-आधारित क्लस्टरिंग प्रत्येक क्लस्टर को एक संभाव्यता मिश्रण के घटक के रूप में मानती है, ताकि क्लस्टरिंग पैरामीटर अनुमान बन जाए और क्लस्टरों की संख्या एक मॉडल-चयन समस्या बन जाए।

Clinical relevance

क्लस्टर विश्लेषण का उपयोग विभिन्न क्षेत्रों में अनलेबल्ड डेटा में संरचना की खोज के लिए किया जाता है, जिसमें बाजार विभाजन, वर्गीकरण, जीन-अभिव्यक्ति समूहन, छवि विभाजन और रोगी उपप्रकारों की पहचान शामिल है।

History

संख्यात्मक क्लस्टरिंग बीसवीं सदी के मध्य के संख्यात्मक वर्गीकरण से विकसित हुई और इसे पदानुक्रमित और विभाजन एल्गोरिदम में व्यवस्थित किया गया। संभाव्य मॉडल-आधारित क्लस्टरिंग, जो परिमित मिश्रण मॉडल और एक्सपेक्टेशन-मैक्सिमाइजेशन एल्गोरिथम पर आधारित है, ने बाद में इस क्षेत्र को संभाव्यता के आधार पर स्थापित किया।

Debates

क्लस्टरों की संख्या का निर्धारण: क्लस्टरों की संख्या चुनने के लिए कोई एक सहमत विधि नहीं है; मानदंड गैप स्टैटिस्टिक्स और सिलुएट चौड़ाई से लेकर मिश्रण मॉडल के लिए सूचना मानदंडों तक भिन्न होते हैं, और वे असहमत हो सकते हैं।

Key figures

Leonard Kaufman
Peter Rousseeuw
Brian Everitt

Seminal works

everitt2011
kaufman1990
hastie2009

Frequently asked questions

क्लस्टरिंग वर्गीकरण से कैसे भिन्न है?: क्लस्टरिंग अनसुपरवाइज्ड है और अनलेबल्ड डेटा से समूहों की खोज करती है, जबकि वर्गीकरण सुपरवाइज्ड है और प्रेक्षणों को उन समूहों को असाइन करता है जो पहले से ज्ञात और लेबल किए गए हैं।
क्या क्लस्टरिंग हमेशा सार्थक समूह ढूंढती है?: नहीं। क्लस्टरिंग एल्गोरिदम किसी भी डेटासेट को विभाजित करेंगे, इसलिए समाधानों को मान्य और व्याख्या किया जाना चाहिए; स्पष्ट क्लस्टर वास्तविक संरचना के बजाय विधि या दूरी के चुनाव को दर्शा सकते हैं।