Processo de Dirichlet e Modelos de Mistura
O processo de Dirichlet é uma priori sobre distribuições cuja discretude o torna uma base natural para modelos de mistura que inferem o número de agrupamentos a partir dos dados.
Definition
O processo de Dirichlet é um processo estocástico cujas realizações são medidas de probabilidade; um modelo de mistura de processo de Dirichlet convolui essas medidas aleatórias discretas com um kernel, produzindo uma mistura com um número aleatório de componentes determinado pelos dados.
Scope
Este tópico abrange o processo de Dirichlet e seus parâmetros de concentração e medida base, as representações do modelo da urna de Polya e do processo do restaurante chinês, o agrupamento que eles induzem, e o modelo de mistura de processo de Dirichlet usado para estimativa de densidade e agrupamento com um número ilimitado de componentes.
Core questions
- Quais são o parâmetro de concentração e a medida base de um processo de Dirichlet?
- Como a urna de Polya e o processo do restaurante chinês descrevem seu agrupamento?
- Como uma mistura de processo de Dirichlet infere o número de agrupamentos?
- Como é realizada a inferência posterior para esses modelos?
Key concepts
- processo de Dirichlet
- parâmetro de concentração
- medida base
- processo do restaurante chinês
- esquema da urna de Polya
- modelo de mistura infinita
- agrupamento
Key theories
- Processo de Dirichlet
- Ferguson definiu o processo de Dirichlet de modo que seus valores em qualquer partição finita são distribuídos por Dirichlet, fornecendo uma priori conjugada e quase certamente discreta sobre distribuições.
- Misturas de processo de Dirichlet
- Misturar um kernel contínuo sobre uma medida distribuída por processo de Dirichlet produz estimativas de densidade flexíveis e agrupamento com um número ilimitado de componentes, com inferência via amostragem de Gibbs.
Clinical relevance
As misturas de processo de Dirichlet realizam agrupamento baseado em modelo e estimativa de densidade sem fixar o número de grupos, o que é valioso em genômica, subtipagem populacional e outros contextos onde o número de agrupamentos é desconhecido.
History
Ferguson definiu o processo de Dirichlet em 1973 e Antoniak introduziu misturas de processos de Dirichlet em 1974. A abordagem de amostragem de Gibbs de Escobar e West em 1995 tornou as misturas de processo de Dirichlet uma ferramenta prática para estimativa de densidade e agrupamento.
Debates
- Sensibilidade ao parâmetro de concentração
- O número de agrupamentos inferidos depende do parâmetro de concentração e da medida base, portanto, as escolhas a priori afetam materialmente as conclusões do agrupamento e devem ser tratadas com cuidado.
Key figures
- Thomas Ferguson
- Charles Antoniak
- Michael Escobar
- Mike West
Related topics
Seminal works
- ferguson1973
- escobar1995
Frequently asked questions
- Como uma mistura de processo de Dirichlet decide quantos agrupamentos existem?
- Não fixa o número de agrupamentos; o processo de Dirichlet permite um número arbitrariamente grande, e a posteriori, impulsionada pelos dados e pelo parâmetro de concentração, atribui probabilidade a diferentes números de agrupamentos ocupados.