डिरिचलेट प्रक्रिया और मिश्रण मॉडल
डिरिचलेट प्रक्रिया वितरणों पर एक पूर्वधारणा है जिसकी असततता इसे मिश्रण मॉडल के लिए एक स्वाभाविक आधार बनाती है जो डेटा से समूहों की संख्या का अनुमान लगाती है।
Definition
डिरिचलेट प्रक्रिया एक स्टोकेस्टिक प्रक्रिया है जिसके परिणाम संभाव्यता माप होते हैं; एक डिरिचलेट प्रक्रिया मिश्रण मॉडल इन असतत यादृच्छिक मापों को एक कर्नेल (kernel) के साथ संवलित करता है, जिससे घटकों की एक यादृच्छिक, डेटा-निर्धारित संख्या के साथ एक मिश्रण प्राप्त होता है।
Scope
यह विषय डिरिचलेट प्रक्रिया और इसके सांद्रता पैरामीटर (concentration parameter) और आधार माप (base measure), पोल्या अर्न (Polya urn) और चीनी रेस्तरां प्रक्रिया (Chinese restaurant process) निरूपण, उनके द्वारा प्रेरित क्लस्टरिंग, और असीमित संख्या में घटकों के साथ घनत्व अनुमान और क्लस्टरिंग के लिए उपयोग किए जाने वाले डिरिचलेट प्रक्रिया मिश्रण मॉडल को शामिल करता है।
Core questions
- डिरिचलेट प्रक्रिया के सांद्रता पैरामीटर और आधार माप क्या हैं?
- पोल्या अर्न और चीनी रेस्तरां प्रक्रिया इसकी क्लस्टरिंग का वर्णन कैसे करते हैं?
- एक डिरिचलेट प्रक्रिया मिश्रण समूहों की संख्या का अनुमान कैसे लगाता है?
- इन मॉडलों के लिए पश्च अनुमान (posterior inference) कैसे किया जाता है?
Key concepts
- डिरिचलेट प्रक्रिया
- सांद्रता पैरामीटर
- आधार माप
- चीनी रेस्तरां प्रक्रिया
- पोल्या अर्न योजना
- अनंत मिश्रण मॉडल
- क्लस्टरिंग
Key theories
- डिरिचलेट प्रक्रिया
- फर्ग्यूसन ने डिरिचलेट प्रक्रिया को इस तरह परिभाषित किया कि किसी भी परिमित विभाजन पर इसके मान डिरिचलेट-वितरित होते हैं, जो वितरणों पर एक संयुग्मी, लगभग-निश्चित रूप से असतत पूर्वधारणा प्रदान करते हैं।
- डिरिचलेट प्रक्रिया मिश्रण
- डिरिचलेट-प्रक्रिया-वितरित माप पर एक सतत कर्नेल को मिश्रित करने से लचीले घनत्व अनुमान और असीमित संख्या में घटकों के साथ क्लस्टरिंग प्राप्त होती है, जिसमें गिब्स सैंपलिंग के माध्यम से अनुमान लगाया जाता है।
Clinical relevance
डिरिचलेट प्रक्रिया मिश्रण समूहों की संख्या को निर्धारित किए बिना मॉडल-आधारित क्लस्टरिंग और घनत्व अनुमान करते हैं, जो जीनोमिक्स, जनसंख्या उपप्रकार निर्धारण और अन्य सेटिंग्स में मूल्यवान है जहां समूहों की संख्या अज्ञात है।
History
फर्ग्यूसन ने 1973 में डिरिचलेट प्रक्रिया को परिभाषित किया और एंटोनियाक ने 1974 में डिरिचलेट प्रक्रियाओं के मिश्रणों को प्रस्तुत किया। एस्कोबार और वेस्ट के 1995 के गिब्स-सैंपलिंग (Gibbs-sampling) दृष्टिकोण ने डिरिचलेट प्रक्रिया मिश्रणों को घनत्व अनुमान और क्लस्टरिंग के लिए एक व्यावहारिक उपकरण बना दिया।
Debates
- सांद्रता पैरामीटर के प्रति संवेदनशीलता
- अनुमानित समूहों की संख्या सांद्रता पैरामीटर और आधार माप पर निर्भर करती है, इसलिए पूर्व विकल्प क्लस्टरिंग निष्कर्षों को भौतिक रूप से प्रभावित करते हैं और उन्हें सावधानी से संभाला जाना चाहिए।
Key figures
- Thomas Ferguson
- Charles Antoniak
- Michael Escobar
- Mike West
Related topics
Seminal works
- ferguson1973
- escobar1995
Frequently asked questions
- एक डिरिचलेट प्रक्रिया मिश्रण यह कैसे तय करता है कि कितने समूह हैं?
- यह समूहों की संख्या को निर्धारित नहीं करता है; डिरिचलेट प्रक्रिया मनमाने ढंग से कई की अनुमति देती है, और पश्च (posterior), जो डेटा और सांद्रता पैरामीटर द्वारा संचालित होता है, अधिग्रहित समूहों की विभिन्न संख्याओं पर संभाव्यता रखता है।