Programació Dinàmica Bayesiana — Optimització de decisions seqüencials amb actualització de creences bayesianes
La Programació Dinàmica Bayesiana (BDP) combina el marc de programació dinàmica de Bellman amb la inferència bayesiana per optimitzar decisions seqüencials quan les probabilitats de transició o les estructures de recompensa són desconegudes. A cada etapa, l'agent actualitza les creences sobre l'entorn utilitzant els resultats observats, i després calcula una política òptima que té en compte explícitament tant les recompenses immediates com el valor de la informació obtinguda a través de l'exploració.
Llegeix el mètode complet
Inicia la sessió amb un compte gratuït per llegir aquesta secció.
Method map
The neighbourhood of related methods — select a node to explore.
Fonts
- Bertsekas, D. P. (1995). Dynamic Programming and Optimal Control. Athena Scientific, Belmont, MA. ISBN: 9781886529267
- Duff, M. O. (2002). Optimal Learning: Computational procedures for Bayes-adaptive Markov decision processes. PhD Dissertation, University of Massachusetts Amherst. link ↗
Com citar aquesta pàgina
ScholarGate. (2026, June 3). Bayesian Dynamic Programming — Sequential decision optimization under uncertainty with Bayesian belief updating. ScholarGate. https://scholargate.app/ca/simulation/bayesian-dynamic-programming
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Model de Markov bayesiàSimulació↔ compare
- Programació DinàmicaOptimització↔ compare
- Aprenentatge per ReforçamentAprenentatge profund↔ compare
- Programació Dinàmica EstocàsticaSimulació↔ compare
Citat per
Has vist cap problema en aquesta pàgina? Informa'n o suggereix una correcció →