ScholarGate
Assistant

Processus de Dirichlet et modèles de mélange

Le processus de Dirichlet est une loi a priori sur les distributions dont la discrétion en fait une base naturelle pour les modèles de mélange qui infèrent le nombre de grappes (clusters) à partir des données.

Trouver un sujet avec PaperMindBientôtFind papers & topics
Tools & resources
Télécharger les diapositives
Learn & explore
VidéoBientôt

Definition

Le processus de Dirichlet est un processus stochastique dont les réalisations sont des mesures de probabilité ; un modèle de mélange de processus de Dirichlet convolue ces mesures aléatoires discrètes avec un noyau, produisant un mélange avec un nombre de composantes aléatoire et déterminé par les données.

Scope

Ce sujet couvre le processus de Dirichlet, son paramètre de concentration et sa mesure de base, les représentations par l'urne de Polya et le processus du restaurant chinois, le regroupement (clustering) qu'ils induisent, et le modèle de mélange de processus de Dirichlet utilisé pour l'estimation de densité et le regroupement avec un nombre illimité de composantes.

Core questions

  • Quels sont le paramètre de concentration et la mesure de base d'un processus de Dirichlet ?
  • Comment l'urne de Polya et le processus du restaurant chinois décrivent-ils son regroupement (clustering) ?
  • Comment un mélange de processus de Dirichlet infère-t-il le nombre de grappes (clusters) ?
  • Comment l'inférence a posteriori est-elle réalisée pour ces modèles ?

Key concepts

  • Processus de Dirichlet
  • paramètre de concentration
  • mesure de base
  • processus du restaurant chinois
  • schéma de l'urne de Polya
  • modèle de mélange infini
  • regroupement (clustering)

Key theories

Processus de Dirichlet
Ferguson a défini le processus de Dirichlet de telle sorte que ses valeurs sur toute partition finie soient distribuées selon une loi de Dirichlet, fournissant une loi a priori conjuguée, presque sûrement discrète, sur les distributions.
Mélanges de processus de Dirichlet
Le mélange d'un noyau continu sur une mesure distribuée selon un processus de Dirichlet produit des estimations de densité flexibles et un regroupement (clustering) avec un nombre illimité de composantes, l'inférence étant réalisée par échantillonnage de Gibbs.

Clinical relevance

Les mélanges de processus de Dirichlet réalisent un regroupement (clustering) basé sur un modèle et une estimation de densité sans fixer le nombre de groupes, ce qui est précieux en génomique, pour le sous-typage des populations et dans d'autres contextes où le nombre de grappes (clusters) est inconnu.

History

Ferguson a défini le processus de Dirichlet en 1973 et Antoniak a introduit les mélanges de processus de Dirichlet en 1974. L'approche par échantillonnage de Gibbs d'Escobar et West en 1995 a fait des mélanges de processus de Dirichlet un outil pratique pour l'estimation de densité et le regroupement (clustering).

Debates

Sensibilité au paramètre de concentration
Le nombre de grappes (clusters) inférées dépend du paramètre de concentration et de la mesure de base ; par conséquent, les choix a priori affectent matériellement les conclusions de regroupement (clustering) et doivent être traités avec soin.

Key figures

  • Thomas Ferguson
  • Charles Antoniak
  • Michael Escobar
  • Mike West

Related topics

Seminal works

  • ferguson1973
  • escobar1995

Frequently asked questions

Comment un mélange de processus de Dirichlet détermine-t-il le nombre de grappes (clusters) ?
Il ne fixe pas le nombre de grappes (clusters) ; le processus de Dirichlet en permet un nombre arbitrairement grand, et la loi a posteriori, guidée par les données et le paramètre de concentration, attribue des probabilités à différents nombres de grappes occupées.

Methods for this concept

Related concepts