변분 추론
변분 추론은 사후 분포 근사를 최적화 문제로 전환하여, 주변 가능도(marginal likelihood)의 하한을 최대화함으로써 더 단순한 분포를 사후 분포에 맞춥니다.
PaperMind(으)로 주제 찾기곧 제공Find papers & topics
Tools & resources
Learn & explore
동영상곧 제공
Definition
변분 추론은 다루기 어려운 사후 분포를 근사하기 위해, 다루기 쉬운 분포족(family of distributions) 중에서 쿨백-라이블러 발산(Kullback-Leibler divergence)을 최소화하는 구성원을 선택하는 방식입니다. 이는 로그 주변 가능도(log marginal likelihood)에 대한 증거 하한(evidence lower bound)을 최대화하는 것과 동일합니다.
Scope
이 주제는 변분 목적 함수(증거 하한, ELBO), 평균장(mean-field) 계열 및 그 인수분해 가정, 좌표 상승(coordinate-ascent) 및 확률적 경사(stochastic gradient) 알고리즘, 그리고 속도와 근사 추론의 체계적 편향 사이의 절충점을 다룹니다.
Core questions
- 사후 분포 근사는 어떻게 최적화 문제로 구성되는가?
- 증거 하한(ELBO)은 무엇이며 KL 발산과 어떻게 관련되는가?
- 평균장 가정은 다루기 쉬움을 얻기 위해 무엇을 희생하는가?
- 확률적 및 블랙박스 방법은 어떻게 변분 추론을 대규모 데이터로 확장하는가?
Key concepts
- 증거 하한
- 쿨백-라이블러 발산
- 평균장 계열
- 좌표 상승 변분 추론
- 확률적 변분 추론
- 블랙박스 변분 추론
- 분산 과소평가
Key theories
- 증거 하한
- ELBO를 최대화하는 것은 근사 분포와 사후 분포 간의 KL 발산을 최소화하는 것과 동일하며, 추론을 선택된 분포족에 대한 다루기 쉬운 최적화 문제로 재구성합니다.
- 평균장 근사
- 근사 사후 분포가 매개변수 블록에 걸쳐 인수분해된다고 가정하면 폐쇄형 좌표 상승 업데이트가 가능하지만, 사후 분산을 과소평가하고 의존성을 무시하는 경향이 있습니다.
Clinical relevance
변분 추론은 텍스트 분석, 유전체학, 딥러닝 등 대규모 데이터셋과 복잡한 모델에서 베이즈 방법의 확장성을 높여줍니다. 이러한 분야에서는 완전한 MCMC의 비용이 엄청나고 빠른 근사 사후 분포로도 충분합니다.
History
변분 방법은 1990년대 후반 그래픽 모델에 대한 평균장 근사를 통해 기계 학습에 도입되었습니다. 2010년대에 Blei와 동료들이 2017년에 조사한 확률적 및 자동 변분 추론은 확장 가능한 근사 베이즈 추론을 주류 통계 및 확률적 프로그래밍에 가져왔습니다.
Debates
- 근사 사후 분포의 편향
- 변분 추론은 빠르지만, 그 KL 목적 함수는 체계적으로 불확실성을 과소평가하므로, 점근적으로 정확한 MCMC에 비해 근사 사후 분포의 신뢰성에 대한 논쟁이 있습니다.
Key figures
- Michael Jordan
- Zoubin Ghahramani
- David Blei
- Tommi Jaakkola
Related topics
Seminal works
- blei2017
- jordan1999
Frequently asked questions
- MCMC 대신 변분 추론을 언제 사용해야 하는가?
- 변분 추론은 데이터셋이나 모델이 너무 커서 MCMC가 실현 불가능하고 빠르고 근사적인 사후 분포로도 충분할 때 매력적입니다. 변분 방법은 사후 분산을 과소평가하는 경향이 있으므로, 정확한 불확실성 정량화가 필수적일 때는 MCMC가 여전히 선호됩니다.