Байєсівське динамічне програмування — Оптимізація послідовних рішень з байєсівським оновленням переконань
Байєсівське динамічне програмування (БДП) поєднує фреймворк динамічного програмування Беллмана з байєсівським висновуванням для оптимізації послідовних рішень, коли ймовірності переходів або структури винагород невідомі. На кожному етапі агент оновлює переконання щодо середовища, використовуючи спостережувані результати, а потім обчислює оптимальну політику, яка явно враховує як негайні винагороди, так і цінність інформації, отриманої шляхом дослідження.
Читати метод повністю
Увійдіть із безкоштовним обліковим записом, щоб прочитати цей розділ.
Method map
The neighbourhood of related methods — select a node to explore.
Джерела
- Bertsekas, D. P. (1995). Dynamic Programming and Optimal Control. Athena Scientific, Belmont, MA. ISBN: 9781886529267
- Duff, M. O. (2002). Optimal Learning: Computational procedures for Bayes-adaptive Markov decision processes. PhD Dissertation, University of Massachusetts Amherst. link ↗
Як цитувати цю сторінку
ScholarGate. (2026, June 3). Bayesian Dynamic Programming — Sequential decision optimization under uncertainty with Bayesian belief updating. ScholarGate. https://scholargate.app/uk/simulation/bayesian-dynamic-programming
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Bayesian Markov ModelІмітаційне моделювання↔ compare
- Динамічне програмуванняОптимізація↔ compare
- Навчання з підкріпленнямГлибоке навчання↔ compare
- Стохастичне динамічне програмуванняІмітаційне моделювання↔ compare
Згадується в
Помітили помилку на цій сторінці? Повідомте про неї або запропонуйте виправлення →