Modèles à variables latentes et modèles de mélange
Les modèles à variables latentes et les modèles de mélange expliquent les données observées à l'aide de variables cachées, en les ajustant par une inférence alternée de la structure cachée et une mise à jour des paramètres.
Definition
Un modèle à variables latentes représente chaque observation comme étant générée à l'aide de variables non observées, telles que le composant de mélange ayant produit un point ; l'algorithme d'espérance-maximisation estime les paramètres en alternant le calcul des valeurs attendues des variables latentes et la maximisation de la vraisemblance attendue résultante.
Scope
Ce sujet aborde les modèles probabilistes avec des variables non observées : les modèles de mélange finis tels que le mélange gaussien, les modèles de Markov cachés pour les séquences, et l'algorithme d'espérance-maximisation (EM) qui les ajuste en maximisant la vraisemblance. Il couvre également le lien avec le partitionnement flou (soft clustering), l'estimation de densité, et la vision variationnelle de l'EM comme bornant la vraisemblance des données.
Core questions
- Comment les variables cachées expliquent-elles les données observées ?
- Comment l'algorithme d'espérance-maximisation augmente-t-il la vraisemblance à chaque étape ?
- Comment les mélanges gaussiens réalisent-ils le partitionnement flou (soft clustering) et l'estimation de densité ?
- Pourquoi l'EM pourrait-il ne converger que vers un optimum local ?
Key theories
- L'algorithme d'espérance-maximisation
- L'EM alterne une étape d'espérance qui infère la distribution sur les variables latentes avec une étape de maximisation qui met à jour les paramètres, ne diminuant de manière prouvée jamais la vraisemblance des données et convergeant vers un point stationnaire.
- Les modèles de mélange gaussiens
- La modélisation des données comme une somme pondérée de composantes gaussiennes produit des estimations de densité flexibles et des assignations de grappes floues (soft cluster assignments), chaque point se voyant attribuer une probabilité d'appartenir à chaque composante.
- L'EM comme maximisation d'une borne inférieure
- L'EM peut être considéré comme la maximisation d'une borne inférieure variationnelle de la log-vraisemblance, une perspective qui se généralise à l'inférence approximative dans des modèles à variables latentes plus complexes.
Clinical relevance
Les modèles à variables latentes sont à la base du partitionnement flou (soft clustering), de l'estimation de densité, de l'imputation de données manquantes et de la modélisation de séquences avec des modèles de Markov cachés en traitement de la parole et en bioinformatique ; l'algorithme d'espérance-maximisation sur lequel ils reposent est l'une des procédures d'optimisation les plus largement utilisées en statistique et en apprentissage automatique.
History
Des cas particuliers de l'idée d'espérance-maximisation sont apparus en génétique et dans les problèmes de données incomplètes avant que Dempster, Laird et Rubin ne donnent la formulation générale en 1977. Les mélanges gaussiens et les modèles de Markov cachés sont devenus des outils standard à variables latentes, et la réinterprétation variationnelle de l'EM l'a ensuite relié aux méthodes modernes d'inférence approximative.
Key figures
- Arthur Dempster
- Nan Laird
- Donald Rubin
Related topics
Seminal works
- dempster1977
- bishop2006
- murphy2012
Frequently asked questions
- Qu'est-ce qu'une variable latente ?
- Une variable latente est une quantité non observée incluse dans un modèle pour expliquer les données observées, telle que la grappe cachée ayant généré un point de données. Le modèle infère une distribution sur ces variables cachées plutôt que de les mesurer directement.
- Pourquoi l'algorithme EM peut-il rester bloqué ?
- L'EM augmente la vraisemblance à chaque étape, mais ne garantit la convergence que vers un maximum local ou un point stationnaire. Différentes initialisations peuvent conduire à différentes solutions, de sorte que les praticiens l'exécutent souvent plusieurs fois à partir de différentes valeurs de départ.