Quand devrais-je utiliser l'inférence variationnelle au lieu du MCMC ?

L'inférence variationnelle est intéressante lorsque les ensembles de données ou les modèles sont trop grands pour que le MCMC soit réalisable et qu'une approximation a posteriori rapide est acceptable ; le MCMC reste préférable lorsque la quantification précise de l'incertitude est essentielle, car les méthodes variationnelles tendent à sous-estimer la variance a posteriori.

Inférence variationnelle

L'inférence variationnelle transforme l'approximation a posteriori en un problème d'optimisation, ajustant une distribution plus simple à la distribution a posteriori en maximisant une borne inférieure de la vraisemblance marginale.

Trouver un sujet avec PaperMindBientôtFind papers & topics

Tools & resources

Télécharger les diapositives

Learn & explore

VidéoBientôt

Definition

L'inférence variationnelle approxime une distribution a posteriori intraitable en sélectionnant, à partir d'une famille de distributions traitables, le membre qui minimise la divergence de Kullback-Leibler par rapport à la distribution a posteriori, ce qui équivaut à maximiser la borne inférieure de l'évidence sur la log-vraisemblance marginale.

Scope

Ce sujet couvre l'objectif variationnel (la borne inférieure de l'évidence), la famille du champ moyen et ses hypothèses de factorisation, les algorithmes d'ascension de coordonnées et de gradient stochastique, ainsi que les compromis entre la vitesse et les biais systématiques de l'inférence approximative.

Core questions

Comment l'approximation a posteriori est-elle formulée comme un problème d'optimisation ?
Qu'est-ce que la borne inférieure de l'évidence et comment est-elle liée à la divergence de KL ?
Que sacrifie l'hypothèse du champ moyen en échange de la traitabilité ?
Comment les méthodes stochastiques et de boîte noire adaptent-elles l'inférence variationnelle aux grandes données ?

Key concepts

borne inférieure de l'évidence
divergence de Kullback-Leibler
famille du champ moyen
inférence variationnelle par ascension de coordonnées
inférence variationnelle stochastique
inférence variationnelle boîte noire
sous-estimation de la variance

Key theories

Borne inférieure de l'évidence: Maximiser l'ELBO équivaut à minimiser la divergence de KL de l'approximation à la distribution a posteriori, reformulant l'inférence comme une optimisation traitable sur une famille choisie.
Approximation du champ moyen: Supposer que la distribution a posteriori approximative se factorise à travers les blocs de paramètres produit des mises à jour d'ascension de coordonnées sous forme fermée, mais tend à sous-estimer la variance a posteriori et à ignorer les dépendances.

Clinical relevance

L'inférence variationnelle permet d'appliquer les méthodes bayésiennes à de grands ensembles de données et à des modèles complexes en analyse de texte, en génomique et en apprentissage profond, où le coût d'un MCMC complet serait prohibitif et une approximation a posteriori rapide est suffisante.

History

Les méthodes variationnelles sont entrées dans l'apprentissage automatique par le biais des approximations de champ moyen pour les modèles graphiques à la fin des années 1990. L'inférence variationnelle stochastique et automatique dans les années 2010, examinée par Blei et ses collègues en 2017, a introduit l'inférence bayésienne approximative et évolutive dans les statistiques courantes et la programmation probabiliste.

Debates

Biais des distributions a posteriori approximatives: L'inférence variationnelle est rapide, mais son objectif KL sous-estime systématiquement l'incertitude, de sorte que la fiabilité de ses distributions a posteriori approximatives par rapport au MCMC asymptotiquement exact est débattue.

Key figures

Michael Jordan
Zoubin Ghahramani
David Blei
Tommi Jaakkola

Seminal works

blei2017
jordan1999

Frequently asked questions

Quand devrais-je utiliser l'inférence variationnelle au lieu du MCMC ?: L'inférence variationnelle est intéressante lorsque les ensembles de données ou les modèles sont trop grands pour que le MCMC soit réalisable et qu'une approximation a posteriori rapide est acceptable ; le MCMC reste préférable lorsque la quantification précise de l'incertitude est essentielle, car les méthodes variationnelles tendent à sous-estimer la variance a posteriori.