Regroupement basé sur un modèle
Le regroupement basé sur un modèle considère les données comme provenant d'un mélange fini de distributions de probabilité, chaque composante représentant un groupe, et estime le modèle par maximum de vraisemblance.
Definition
Le regroupement basé sur un modèle est une approche qui modélise la population comme un mélange de distributions de composantes, attribue à chaque observation une probabilité postérieure d'appartenance à chaque composante, et en déduit ainsi les groupes comme étant les composantes du mélange estimées.
Scope
Ce sujet aborde les modèles de mélange finis, le plus souvent les mélanges gaussiens, l'algorithme d'espérance-maximisation pour l'estimation des paramètres du mélange et des appartenances postérieures aux groupes, les paramétrisations des covariances des composantes qui contrôlent la forme et l'orientation des groupes, et l'utilisation de critères d'information pour sélectionner le nombre de composantes.
Core questions
- Comment le regroupement peut-il être formulé comme un problème d'estimation statistique ?
- Comment les paramètres du mélange et les appartenances souples aux groupes sont-ils estimés ?
- Comment les paramétrisations de covariance contrôlent-elles la géométrie des groupes ?
- Comment le nombre de composantes du mélange est-il sélectionné ?
Key theories
- Formulation du mélange fini
- Chaque observation est supposée provenir de l'une des plusieurs distributions de composantes avec des proportions de mélange inconnues, de sorte que le regroupement se réduit à l'estimation des composantes et à l'attribution de probabilités d'appartenance postérieures.
- Estimation par espérance-maximisation
- En traitant les étiquettes de groupe comme des données manquantes, l'algorithme EM alterne entre le calcul des appartenances attendues et la réestimation des paramètres des composantes, convergeant vers un ajustement du mélange par maximum de vraisemblance.
Clinical relevance
Le regroupement basé sur un modèle fournit des assignations probabilistes aux groupes et une sélection de modèle rigoureuse. Il est appliqué dans l'estimation de densité, la classification de sous-populations, et dans des contextes où des groupes chevauchants ou de formes différentes nécessitent un modèle statistique.
History
Les modèles de mélange finis ont une longue histoire statistique, mais leur utilisation comme cadre de regroupement s'est étendue avec l'algorithme d'espérance-maximisation, ainsi qu'avec les paramétrisations de covariance et les critères de sélection de modèle qui ont rendu le regroupement par mélange gaussien pratique et largement disponible.
Debates
- Sélection du nombre de composantes
- Les critères d'information tels que le critère d'information bayésien sont couramment utilisés pour choisir le nombre de composantes du mélange, mais la sélection basée sur la vraisemblance peut être sensible aux hypothèses du modèle et aux composantes qui se chevauchent.
Key figures
- Geoffrey McLachlan
- Adrian Raftery
- Chris Fraley
Related topics
Seminal works
- mclachlan2000
- fraley2002
- hastie2009
Frequently asked questions
- En quoi le regroupement basé sur un modèle diffère-t-il du k-moyennes ?
- Le k-moyennes effectue des assignations strictes minimisant la distance au carré et suppose implicitement des groupes sphériques, tandis que le regroupement basé sur un modèle ajuste un mélange de probabilités, fournit des appartenances souples et peut modéliser des groupes de formes, de tailles et d'orientations différentes.
- Que fait l'algorithme EM ici ?
- Il estime itérativement la probabilité que chaque observation appartienne à chaque groupe, puis met à jour les distributions des groupes, répétant ce processus jusqu'à ce que la vraisemblance du mélange se stabilise.