En quoi le regroupement basé sur un modèle diffère-t-il du k-moyennes ?

Le k-moyennes effectue des assignations strictes minimisant la distance au carré et suppose implicitement des groupes sphériques, tandis que le regroupement basé sur un modèle ajuste un mélange de probabilités, fournit des appartenances souples et peut modéliser des groupes de formes, de tailles et d'orientations différentes.

Que fait l'algorithme EM ici ?

Il estime itérativement la probabilité que chaque observation appartienne à chaque groupe, puis met à jour les distributions des groupes, répétant ce processus jusqu'à ce que la vraisemblance du mélange se stabilise.

Regroupement basé sur un modèle

Le regroupement basé sur un modèle considère les données comme provenant d'un mélange fini de distributions de probabilité, chaque composante représentant un groupe, et estime le modèle par maximum de vraisemblance.

Trouver un sujet avec PaperMindBientôtFind papers & topics

Tools & resources

Télécharger les diapositives

Learn & explore

VidéoBientôt

Definition

Le regroupement basé sur un modèle est une approche qui modélise la population comme un mélange de distributions de composantes, attribue à chaque observation une probabilité postérieure d'appartenance à chaque composante, et en déduit ainsi les groupes comme étant les composantes du mélange estimées.

Scope

Ce sujet aborde les modèles de mélange finis, le plus souvent les mélanges gaussiens, l'algorithme d'espérance-maximisation pour l'estimation des paramètres du mélange et des appartenances postérieures aux groupes, les paramétrisations des covariances des composantes qui contrôlent la forme et l'orientation des groupes, et l'utilisation de critères d'information pour sélectionner le nombre de composantes.

Core questions

Comment le regroupement peut-il être formulé comme un problème d'estimation statistique ?
Comment les paramètres du mélange et les appartenances souples aux groupes sont-ils estimés ?
Comment les paramétrisations de covariance contrôlent-elles la géométrie des groupes ?
Comment le nombre de composantes du mélange est-il sélectionné ?

Key theories

Formulation du mélange fini: Chaque observation est supposée provenir de l'une des plusieurs distributions de composantes avec des proportions de mélange inconnues, de sorte que le regroupement se réduit à l'estimation des composantes et à l'attribution de probabilités d'appartenance postérieures.
Estimation par espérance-maximisation: En traitant les étiquettes de groupe comme des données manquantes, l'algorithme EM alterne entre le calcul des appartenances attendues et la réestimation des paramètres des composantes, convergeant vers un ajustement du mélange par maximum de vraisemblance.

Clinical relevance

Le regroupement basé sur un modèle fournit des assignations probabilistes aux groupes et une sélection de modèle rigoureuse. Il est appliqué dans l'estimation de densité, la classification de sous-populations, et dans des contextes où des groupes chevauchants ou de formes différentes nécessitent un modèle statistique.

History

Les modèles de mélange finis ont une longue histoire statistique, mais leur utilisation comme cadre de regroupement s'est étendue avec l'algorithme d'espérance-maximisation, ainsi qu'avec les paramétrisations de covariance et les critères de sélection de modèle qui ont rendu le regroupement par mélange gaussien pratique et largement disponible.

Debates

Sélection du nombre de composantes: Les critères d'information tels que le critère d'information bayésien sont couramment utilisés pour choisir le nombre de composantes du mélange, mais la sélection basée sur la vraisemblance peut être sensible aux hypothèses du modèle et aux composantes qui se chevauchent.

Key figures

Geoffrey McLachlan
Adrian Raftery
Chris Fraley

Seminal works

mclachlan2000
fraley2002
hastie2009

Frequently asked questions

En quoi le regroupement basé sur un modèle diffère-t-il du k-moyennes ?: Le k-moyennes effectue des assignations strictes minimisant la distance au carré et suppose implicitement des groupes sphériques, tandis que le regroupement basé sur un modèle ajuste un mélange de probabilités, fournit des appartenances souples et peut modéliser des groupes de formes, de tailles et d'orientations différentes.
Que fait l'algorithme EM ici ?: Il estime itérativement la probabilité que chaque observation appartienne à chaque groupe, puis met à jour les distributions des groupes, répétant ce processus jusqu'à ce que la vraisemblance du mélange se stabilise.