Process / pipelineSimulation / optimization

베이즈 동적 계획법 — 베이즈 신념 업데이트를 통한 순차적 의사결정 최적화

베이즈 동적 계획법(Bayesian Dynamic Programming, BDP)은 벨만(Bellman)의 동적 계획법 프레임워크와 베이즈 추론을 결합하여, 전환 확률이나 보상 구조가 알려지지 않은 상황에서 순차적 의사결정을 최적화한다. 각 단계에서 에이전트는 관찰된 결과를 사용하여 환경에 대한 신념을 업데이트한 후, 즉각적인 보상과 탐색을 통해 얻는 정보의 가치를 명시적으로 고려하는 최적 정책을 계산한다.

MethodMind에서 열기곧 제공동영상곧 제공Download slides

방법 전문 읽기

회원 전용

무료 계정으로 로그인하면 이 섹션을 읽을 수 있습니다.

로그인

Method map

The neighbourhood of related methods — select a node to explore.

출처

  1. Bertsekas, D. P. (1995). Dynamic Programming and Optimal Control. Athena Scientific, Belmont, MA. ISBN: 9781886529267
  2. Duff, M. O. (2002). Optimal Learning: Computational procedures for Bayes-adaptive Markov decision processes. PhD Dissertation, University of Massachusetts Amherst. link

이 페이지 인용 방법

ScholarGate. (2026, June 3). Bayesian Dynamic Programming — Sequential decision optimization under uncertainty with Bayesian belief updating. ScholarGate. https://scholargate.app/ko/simulation/bayesian-dynamic-programming

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

이 방법을 참조하는 항목

ScholarGateBayesian Dynamic Programming (Bayesian Dynamic Programming — Sequential decision optimization under uncertainty with Bayesian belief updating). 2026-06-15에 다음에서 검색함: https://scholargate.app/ko/simulation/bayesian-dynamic-programming · 데이터셋: https://doi.org/10.5281/zenodo.20539026