मॉडल-आधारित क्लस्टरिंग
मॉडल-आधारित क्लस्टरिंग डेटा को प्रायिकता वितरणों के एक सीमित मिश्रण से उत्पन्न मानती है, जिसमें प्रत्येक घटक एक क्लस्टर का प्रतिनिधित्व करता है, और अधिकतम संभावना द्वारा मॉडल का अनुमान लगाती है।
Definition
मॉडल-आधारित क्लस्टरिंग एक ऐसा दृष्टिकोण है जो जनसंख्या को घटक वितरणों के मिश्रण के रूप में मॉडल करता है, प्रत्येक अवलोकन को प्रत्येक घटक से संबंधित होने की पश्च प्रायिकता प्रदान करता है, और इस प्रकार अनुमानित मिश्रण घटकों के रूप में क्लस्टर प्राप्त करता है।
Scope
यह विषय सीमित मिश्रण मॉडल, सबसे सामान्यतः गाऊसी मिश्रण, मिश्रण मापदंडों और पश्च क्लस्टर सदस्यता का अनुमान लगाने के लिए प्रत्याशा-अधिकतमीकरण एल्गोरिथम, घटक सहप्रसरणों के प्राचलीकरण जो क्लस्टर के आकार और अभिविन्यास को नियंत्रित करते हैं, और घटकों की संख्या का चयन करने के लिए सूचना मानदंडों के उपयोग को शामिल करता है।
Core questions
- क्लस्टरिंग को एक सांख्यिकीय अनुमान समस्या के रूप में कैसे तैयार किया जा सकता है?
- मिश्रण मापदंडों और सॉफ्ट क्लस्टर सदस्यताओं का अनुमान कैसे लगाया जाता है?
- सहप्रसरण प्राचलीकरण क्लस्टरों की ज्यामिति को कैसे नियंत्रित करते हैं?
- मिश्रण घटकों की संख्या का चयन कैसे किया जाता है?
Key theories
- सीमित मिश्रण सूत्रीकरण
- प्रत्येक अवलोकन को अज्ञात मिश्रण अनुपातों के साथ कई घटक वितरणों में से एक से लिया गया माना जाता है, इसलिए क्लस्टरिंग घटकों का अनुमान लगाने और पश्च सदस्यता प्रायिकताओं को असाइन करने तक कम हो जाती है।
- प्रत्याशा-अधिकतमीकरण अनुमान
- क्लस्टर लेबल को गुम डेटा के रूप में मानते हुए, EM एल्गोरिथम अपेक्षित सदस्यताओं की गणना करने और घटक मापदंडों को फिर से अनुमानित करने के बीच वैकल्पिक होता है, जो मिश्रण के अधिकतम-संभावना फिट में परिवर्तित होता है।
Clinical relevance
मॉडल-आधारित क्लस्टरिंग संभाव्य क्लस्टर असाइनमेंट और सैद्धांतिक मॉडल चयन प्रदान करती है, और इसका उपयोग घनत्व अनुमान, उप-जनसंख्याओं के वर्गीकरण, और उन सेटिंग्स में किया जाता है जहाँ अतिव्यापी या भिन्न आकार के क्लस्टरों को एक सांख्यिकीय मॉडल की आवश्यकता होती है।
History
सीमित मिश्रण मॉडल का एक लंबा सांख्यिकीय इतिहास है, लेकिन क्लस्टरिंग फ्रेमवर्क के रूप में उनका उपयोग प्रत्याशा-अधिकतमीकरण एल्गोरिथम और सहप्रसरण प्राचलीकरण तथा मॉडल-चयन मानदंडों के साथ विस्तारित हुआ, जिसने गाऊसी मिश्रण क्लस्टरिंग को व्यावहारिक और व्यापक रूप से उपलब्ध कराया।
Debates
- घटकों की संख्या का चयन
- बेयसियन सूचना मानदंड जैसे सूचना मानदंडों का उपयोग आमतौर पर मिश्रण घटकों की संख्या का चयन करने के लिए किया जाता है, लेकिन संभावना-आधारित चयन मॉडल धारणाओं और अतिव्यापी घटकों के प्रति संवेदनशील हो सकता है।
Key figures
- Geoffrey McLachlan
- Adrian Raftery
- Chris Fraley
Related topics
Seminal works
- mclachlan2000
- fraley2002
- hastie2009
Frequently asked questions
- मॉडल-आधारित क्लस्टरिंग k-मीन्स से कैसे भिन्न है?
- K-मीन्स कठोर असाइनमेंट बनाता है जो वर्ग दूरी को कम करता है और अंतर्निहित रूप से गोलाकार क्लस्टरों को मानता है, जबकि मॉडल-आधारित क्लस्टरिंग एक प्रायिकता मिश्रण को फिट करती है, सॉफ्ट सदस्यता देती है, और विभिन्न आकार, माप और अभिविन्यास के क्लस्टरों को मॉडल कर सकती है।
- EM एल्गोरिथम यहाँ क्या करता है?
- यह पुनरावृत्त रूप से उस प्रायिकता का अनुमान लगाता है कि प्रत्येक अवलोकन प्रत्येक क्लस्टर से संबंधित है और फिर क्लस्टर वितरणों को अद्यतन करता है, जब तक कि मिश्रण की संभावना स्थिर न हो जाए तब तक दोहराता रहता है।