Процесс Дирихле и смешанные модели
Процесс Дирихле представляет собой априорное распределение для вероятностных распределений, чья дискретность делает его естественной основой для смешанных моделей, которые выводят количество кластеров из данных.
Definition
Процесс Дирихле — это стохастический процесс, реализации которого являются вероятностными мерами; смешанная модель процесса Дирихле свертывает эти дискретные случайные меры с ядром, что приводит к смеси со случайным, определяемым данными числом компонентов.
Scope
Эта тема охватывает процесс Дирихле, его параметр концентрации и базовую меру, представления в виде урны Пойа и процесса китайского ресторана, кластеризацию, которую они индуцируют, а также смешанную модель процесса Дирихле, используемую для оценки плотности и кластеризации с неограниченным числом компонентов.
Core questions
- Что такое параметр концентрации и базовая мера процесса Дирихле?
- Как урна Пойа и процесс китайского ресторана описывают его кластеризацию?
- Как смешанная модель процесса Дирихле выводит количество кластеров?
- Как осуществляется апостериорный вывод для этих моделей?
Key concepts
- процесс Дирихле
- параметр концентрации
- базовая мера
- процесс китайского ресторана
- схема урны Пойа
- модель бесконечной смеси
- кластеризация
Key theories
- Процесс Дирихле
- Фергюсон определил процесс Дирихле таким образом, что его значения на любом конечном разбиении распределены по Дирихле, что дает сопряженное, почти наверняка дискретное априорное распределение для вероятностных распределений.
- Смеси процессов Дирихле
- Смешивание непрерывного ядра с мерой, распределенной по процессу Дирихле, дает гибкие оценки плотности и кластеризацию с неограниченным числом компонентов, с выводом с помощью выборки Гиббса.
Clinical relevance
Смеси процесса Дирихле выполняют кластеризацию на основе моделей и оценку плотности без фиксации количества групп, что ценно в геномике, субтипировании популяций и других условиях, где количество кластеров неизвестно.
History
Фергюсон определил процесс Дирихле в 1973 году, а Антоняк представил смеси процессов Дирихле в 1974 году. Подход Гиббса-сэмплинга Эскобара и Уэста 1995 года сделал смеси процессов Дирихле практическим инструментом для оценки плотности и кластеризации.
Debates
- Чувствительность к параметру концентрации
- Количество выведенных кластеров зависит от параметра концентрации и базовой меры, поэтому априорный выбор существенно влияет на выводы кластеризации и должен быть тщательно проработан.
Key figures
- Thomas Ferguson
- Charles Antoniak
- Michael Escobar
- Mike West
Related topics
Seminal works
- ferguson1973
- escobar1995
Frequently asked questions
- Как смешанная модель процесса Дирихле определяет количество кластеров?
- Она не фиксирует количество кластеров; процесс Дирихле допускает произвольно много, а апостериорное распределение, определяемое данными и параметром концентрации, приписывает вероятность различным числам занятых кластеров.