Process / pipelineSimulation / optimization
베이즈 동적 계획법 — 베이즈 신념 업데이트를 통한 순차적 의사결정 최적화
베이즈 동적 계획법(Bayesian Dynamic Programming, BDP)은 벨만(Bellman)의 동적 계획법 프레임워크와 베이즈 추론을 결합하여, 전환 확률이나 보상 구조가 알려지지 않은 상황에서 순차적 의사결정을 최적화한다. 각 단계에서 에이전트는 관찰된 결과를 사용하여 환경에 대한 신념을 업데이트한 후, 즉각적인 보상과 탐색을 통해 얻는 정보의 가치를 명시적으로 고려하는 최적 정책을 계산한다.
방법 전문 읽기
회원 전용
로그인무료 계정으로 로그인하면 이 섹션을 읽을 수 있습니다.
Method map
The neighbourhood of related methods — select a node to explore.
출처
- Bertsekas, D. P. (1995). Dynamic Programming and Optimal Control. Athena Scientific, Belmont, MA. ISBN: 9781886529267
- Duff, M. O. (2002). Optimal Learning: Computational procedures for Bayes-adaptive Markov decision processes. PhD Dissertation, University of Massachusetts Amherst. link ↗
이 페이지 인용 방법
ScholarGate. (2026, June 3). Bayesian Dynamic Programming — Sequential decision optimization under uncertainty with Bayesian belief updating. ScholarGate. https://scholargate.app/ko/simulation/bayesian-dynamic-programming
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
Compare side by side →