Calcul bayésien et MCMC
Le calcul bayésien rend l'inférence réalisable en tirant des échantillons de distributions a posteriori qui ne peuvent pas être évaluées sous forme analytique, principalement au moyen de la méthode de Monte Carlo par chaînes de Markov.
Definition
Le calcul bayésien est l'ensemble des méthodes numériques permettant d'approximer les distributions a posteriori et les espérances calculées sur celles-ci ; la méthode de Monte Carlo par chaînes de Markov construit une chaîne de Markov dont la distribution stationnaire est la distribution a posteriori cible, de sorte que ses échantillons peuvent être utilisés pour l'inférence.
Scope
Ce domaine englobe les algorithmes qui sous-tendent l'analyse bayésienne moderne : le cadre de Metropolis-Hastings, l'échantillonnage de Gibbs, la méthode de Monte Carlo hamiltonienne basée sur le gradient, et les approximations variationnelles déterministes, ainsi que les diagnostics de convergence et l'évaluation de l'erreur de Monte Carlo qui garantissent la fiabilité de leurs résultats.
Sub-topics
Core questions
- Comment des échantillons peuvent-ils être tirés d'une distribution a posteriori connue seulement à une constante de normalisation près ?
- Comment les méthodes de Metropolis-Hastings et d'échantillonnage de Gibbs construisent-elles des chaînes avec la bonne distribution stationnaire ?
- Comment l'information de gradient permet-elle à la méthode de Monte Carlo hamiltonienne d'explorer efficacement les distributions a posteriori de haute dimension ?
- Quand les approximations déterministes telles que l'inférence variationnelle sont-elles préférables à l'échantillonnage ?
- Comment la convergence d'un échantillonneur MCMC est-elle diagnostiquée et l'erreur de Monte Carlo quantifiée ?
Key concepts
- Méthode de Monte Carlo par chaînes de Markov
- distribution stationnaire
- équilibre détaillé
- période de rodage
- mélange
- taille d'échantillon effective
- diagnostics de convergence
- erreur standard de Monte Carlo
Key theories
- Méthode de Monte Carlo par chaînes de Markov
- En construisant une chaîne de Markov dont la distribution invariante est la distribution a posteriori, le MCMC transforme l'intégration intraitable en un problème de simulation et de calcul de moyennes sur une chaîne.
- Équilibre détaillé
- La réversibilité par rapport à la distribution cible est la condition suffisante standard garantissant qu'un échantillonneur laisse la distribution a posteriori invariante, sous-tendant les méthodes de Metropolis-Hastings et de Gibbs.
- Diagnostics de convergence
- L'inférence pratique repose sur des diagnostics tels que le facteur de réduction d'échelle potentiel et la taille d'échantillon effective pour évaluer si les chaînes ont atteint et se sont mélangées à travers la distribution stationnaire.
Clinical relevance
Le MCMC et les calculs associés permettent d'ajuster des modèles hiérarchiques et non linéaires réalistes dans l'ensemble des sciences, de la pharmacocinétique des populations et de la génétique à la cosmologie et à l'écologie, là où les distributions a posteriori n'ont pas de forme analytique.
History
L'algorithme de Metropolis (1953) et la généralisation de Hastings (1970) ont trouvé leur origine en physique ; l'échantillonneur de Gibbs de Geman et Geman (1984) et l'article de Gelfand et Smith de 1990 ont intégré ces méthodes dans le courant dominant de la statistique, déclenchant la révolution du calcul bayésien qui se poursuit avec la méthode de Monte Carlo hamiltonienne et les méthodes variationnelles.
Debates
- Échantillonnage versus approximation déterministe
- Le MCMC offre des échantillons asymptotiquement exacts à un coût de calcul élevé, tandis que l'inférence variationnelle est rapide mais approximative ; le compromis entre précision et évolutivité demeure une préoccupation active.
Key figures
- Nicholas Metropolis
- W. Keith Hastings
- Stuart Geman
- Donald Geman
- Radford Neal
Related topics
Seminal works
- robert2004
- brooks2011
- gelman2013
Frequently asked questions
- Pourquoi le MCMC est-il nécessaire ?
- Pour la plupart des modèles réalistes, la distribution a posteriori n'a pas de forme analytique et sa constante de normalisation est une intégrale de haute dimension intraitable ; le MCMC contourne ce problème en produisant des échantillons de la distribution a posteriori en utilisant uniquement sa densité non normalisée.
- Comment savoir si une exécution MCMC a convergé ?
- La convergence est évaluée à l'aide de diagnostics tels que le facteur de réduction d'échelle potentiel sur plusieurs chaînes, les tracés de traces et la taille d'échantillon effective, bien que ceux-ci puissent détecter un échec de convergence, ils ne peuvent jamais prouver la convergence avec certitude.