मॉडल-आधारित क्लस्टरिंग k-मीन्स से कैसे भिन्न है?

K-मीन्स कठोर असाइनमेंट बनाता है जो वर्ग दूरी को कम करता है और अंतर्निहित रूप से गोलाकार क्लस्टरों को मानता है, जबकि मॉडल-आधारित क्लस्टरिंग एक प्रायिकता मिश्रण को फिट करती है, सॉफ्ट सदस्यता देती है, और विभिन्न आकार, माप और अभिविन्यास के क्लस्टरों को मॉडल कर सकती है।

EM एल्गोरिथम यहाँ क्या करता है?

यह पुनरावृत्त रूप से उस प्रायिकता का अनुमान लगाता है कि प्रत्येक अवलोकन प्रत्येक क्लस्टर से संबंधित है और फिर क्लस्टर वितरणों को अद्यतन करता है, जब तक कि मिश्रण की संभावना स्थिर न हो जाए तब तक दोहराता रहता है।

मॉडल-आधारित क्लस्टरिंग

मॉडल-आधारित क्लस्टरिंग डेटा को प्रायिकता वितरणों के एक सीमित मिश्रण से उत्पन्न मानती है, जिसमें प्रत्येक घटक एक क्लस्टर का प्रतिनिधित्व करता है, और अधिकतम संभावना द्वारा मॉडल का अनुमान लगाती है।

PaperMind से विषय खोजेंजल्द हीFind papers & topics

Tools & resources

स्लाइड डाउनलोड करें

Learn & explore

वीडियोजल्द ही

Definition

मॉडल-आधारित क्लस्टरिंग एक ऐसा दृष्टिकोण है जो जनसंख्या को घटक वितरणों के मिश्रण के रूप में मॉडल करता है, प्रत्येक अवलोकन को प्रत्येक घटक से संबंधित होने की पश्च प्रायिकता प्रदान करता है, और इस प्रकार अनुमानित मिश्रण घटकों के रूप में क्लस्टर प्राप्त करता है।

Scope

यह विषय सीमित मिश्रण मॉडल, सबसे सामान्यतः गाऊसी मिश्रण, मिश्रण मापदंडों और पश्च क्लस्टर सदस्यता का अनुमान लगाने के लिए प्रत्याशा-अधिकतमीकरण एल्गोरिथम, घटक सहप्रसरणों के प्राचलीकरण जो क्लस्टर के आकार और अभिविन्यास को नियंत्रित करते हैं, और घटकों की संख्या का चयन करने के लिए सूचना मानदंडों के उपयोग को शामिल करता है।

Core questions

क्लस्टरिंग को एक सांख्यिकीय अनुमान समस्या के रूप में कैसे तैयार किया जा सकता है?
मिश्रण मापदंडों और सॉफ्ट क्लस्टर सदस्यताओं का अनुमान कैसे लगाया जाता है?
सहप्रसरण प्राचलीकरण क्लस्टरों की ज्यामिति को कैसे नियंत्रित करते हैं?
मिश्रण घटकों की संख्या का चयन कैसे किया जाता है?

Key theories

सीमित मिश्रण सूत्रीकरण: प्रत्येक अवलोकन को अज्ञात मिश्रण अनुपातों के साथ कई घटक वितरणों में से एक से लिया गया माना जाता है, इसलिए क्लस्टरिंग घटकों का अनुमान लगाने और पश्च सदस्यता प्रायिकताओं को असाइन करने तक कम हो जाती है।
प्रत्याशा-अधिकतमीकरण अनुमान: क्लस्टर लेबल को गुम डेटा के रूप में मानते हुए, EM एल्गोरिथम अपेक्षित सदस्यताओं की गणना करने और घटक मापदंडों को फिर से अनुमानित करने के बीच वैकल्पिक होता है, जो मिश्रण के अधिकतम-संभावना फिट में परिवर्तित होता है।

Clinical relevance

मॉडल-आधारित क्लस्टरिंग संभाव्य क्लस्टर असाइनमेंट और सैद्धांतिक मॉडल चयन प्रदान करती है, और इसका उपयोग घनत्व अनुमान, उप-जनसंख्याओं के वर्गीकरण, और उन सेटिंग्स में किया जाता है जहाँ अतिव्यापी या भिन्न आकार के क्लस्टरों को एक सांख्यिकीय मॉडल की आवश्यकता होती है।

History

सीमित मिश्रण मॉडल का एक लंबा सांख्यिकीय इतिहास है, लेकिन क्लस्टरिंग फ्रेमवर्क के रूप में उनका उपयोग प्रत्याशा-अधिकतमीकरण एल्गोरिथम और सहप्रसरण प्राचलीकरण तथा मॉडल-चयन मानदंडों के साथ विस्तारित हुआ, जिसने गाऊसी मिश्रण क्लस्टरिंग को व्यावहारिक और व्यापक रूप से उपलब्ध कराया।

Debates

घटकों की संख्या का चयन: बेयसियन सूचना मानदंड जैसे सूचना मानदंडों का उपयोग आमतौर पर मिश्रण घटकों की संख्या का चयन करने के लिए किया जाता है, लेकिन संभावना-आधारित चयन मॉडल धारणाओं और अतिव्यापी घटकों के प्रति संवेदनशील हो सकता है।

Key figures

Geoffrey McLachlan
Adrian Raftery
Chris Fraley

Seminal works

mclachlan2000
fraley2002
hastie2009

Frequently asked questions

मॉडल-आधारित क्लस्टरिंग k-मीन्स से कैसे भिन्न है?: K-मीन्स कठोर असाइनमेंट बनाता है जो वर्ग दूरी को कम करता है और अंतर्निहित रूप से गोलाकार क्लस्टरों को मानता है, जबकि मॉडल-आधारित क्लस्टरिंग एक प्रायिकता मिश्रण को फिट करती है, सॉफ्ट सदस्यता देती है, और विभिन्न आकार, माप और अभिविन्यास के क्लस्टरों को मॉडल कर सकती है।
EM एल्गोरिथम यहाँ क्या करता है?: यह पुनरावृत्त रूप से उस प्रायिकता का अनुमान लगाता है कि प्रत्येक अवलोकन प्रत्येक क्लस्टर से संबंधित है और फिर क्लस्टर वितरणों को अद्यतन करता है, जब तक कि मिश्रण की संभावना स्थिर न हो जाए तब तक दोहराता रहता है।