ScholarGate
助手

变分推断

变分推断将后验近似转化为优化问题,通过最大化边际似然的下界,使一个更简单的分布拟合后验。

用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
下载幻灯片
Learn & explore
视频即将推出

Definition

变分推断通过从一个易处理的分布族中选择一个成员来近似一个难以处理的后验,该成员能最小化与后验之间的Kullback-Leibler散度,这等价于最大化对数边际似然的证据下界。

Scope

本主题涵盖变分目标(证据下界)、平均场族及其分解假设、坐标上升和随机梯度算法,以及速度与近似推断系统偏差之间的权衡。

Core questions

  • 后验近似是如何被构建成一个优化问题的?
  • 证据下界是什么,它与KL散度有何关系?
  • 平均场假设为了可处理性牺牲了什么?
  • 随机和黑盒方法如何将变分推断扩展到大数据?

Key concepts

  • 证据下界
  • Kullback-Leibler散度
  • 平均场族
  • 坐标上升变分推断
  • 随机变分推断
  • 黑盒变分推断
  • 方差低估

Key theories

证据下界
最大化ELBO等同于最小化从近似分布到后验的KL散度,将推断重构为在选定分布族上的可处理优化问题。
平均场近似
假设近似后验在参数块之间可分解,可以得到闭合形式的坐标上升更新,但往往会低估后验方差并忽略依赖关系。

Clinical relevance

变分推断将贝叶斯方法扩展到文本分析、基因组学和深度学习中的大型数据集和复杂模型,在这些领域,完全MCMC的成本过高,而快速的近似后验就足够了。

History

变分方法在1990年代后期通过图形模型的平均场近似进入机器学习领域。Blei及其同事在2017年综述的2010年代的随机和自动变分推断,将可扩展的近似贝叶斯推断引入主流统计学和概率编程。

Debates

近似后验的偏差
变分推断速度快,但其KL目标系统性地低估不确定性,因此其近似后验相对于渐近精确的MCMC的可靠性存在争议。

Key figures

  • Michael Jordan
  • Zoubin Ghahramani
  • David Blei
  • Tommi Jaakkola

Related topics

Seminal works

  • blei2017
  • jordan1999

Frequently asked questions

我应该何时使用变分推断而不是MCMC?
当数据集或模型过大导致MCMC不可行且快速的近似后验可接受时,变分推断具有吸引力;当精确的不确定性量化至关重要时,MCMC仍然是更优选择,因为变分方法倾向于低估后验方差。

Methods for this concept

Related concepts