Process / pipelineSimulation / optimization

Байєсівське динамічне програмування — Оптимізація послідовних рішень з байєсівським оновленням переконань

Байєсівське динамічне програмування (БДП) поєднує фреймворк динамічного програмування Беллмана з байєсівським висновуванням для оптимізації послідовних рішень, коли ймовірності переходів або структури винагород невідомі. На кожному етапі агент оновлює переконання щодо середовища, використовуючи спостережувані результати, а потім обчислює оптимальну політику, яка явно враховує як негайні винагороди, так і цінність інформації, отриманої шляхом дослідження.

Відкрити у MethodMindНезабаромВідеоНезабаромDownload slides

Читати метод повністю

Лише для учасників

Увійдіть із безкоштовним обліковим записом, щоб прочитати цей розділ.

Увійти

Method map

The neighbourhood of related methods — select a node to explore.

Джерела

  1. Bertsekas, D. P. (1995). Dynamic Programming and Optimal Control. Athena Scientific, Belmont, MA. ISBN: 9781886529267
  2. Duff, M. O. (2002). Optimal Learning: Computational procedures for Bayes-adaptive Markov decision processes. PhD Dissertation, University of Massachusetts Amherst. link

Як цитувати цю сторінку

ScholarGate. (2026, June 3). Bayesian Dynamic Programming — Sequential decision optimization under uncertainty with Bayesian belief updating. ScholarGate. https://scholargate.app/uk/simulation/bayesian-dynamic-programming

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Згадується в

ScholarGateBayesian Dynamic Programming (Bayesian Dynamic Programming — Sequential decision optimization under uncertainty with Bayesian belief updating). Отримано 2026-06-15 з https://scholargate.app/uk/simulation/bayesian-dynamic-programming · Набір даних: https://doi.org/10.5281/zenodo.20539026