Process / pipelineSimulation / optimization

Programació Dinàmica Bayesiana — Optimització de decisions seqüencials amb actualització de creences bayesianes

La Programació Dinàmica Bayesiana (BDP) combina el marc de programació dinàmica de Bellman amb la inferència bayesiana per optimitzar decisions seqüencials quan les probabilitats de transició o les estructures de recompensa són desconegudes. A cada etapa, l'agent actualitza les creences sobre l'entorn utilitzant els resultats observats, i després calcula una política òptima que té en compte explícitament tant les recompenses immediates com el valor de la informació obtinguda a través de l'exploració.

Obre a MethodMindAviatVídeoAviatDownload slides

Llegeix el mètode complet

Només per a membres

Inicia la sessió amb un compte gratuït per llegir aquesta secció.

Inicia la sessió

Method map

The neighbourhood of related methods — select a node to explore.

Fonts

  1. Bertsekas, D. P. (1995). Dynamic Programming and Optimal Control. Athena Scientific, Belmont, MA. ISBN: 9781886529267
  2. Duff, M. O. (2002). Optimal Learning: Computational procedures for Bayes-adaptive Markov decision processes. PhD Dissertation, University of Massachusetts Amherst. link

Com citar aquesta pàgina

ScholarGate. (2026, June 3). Bayesian Dynamic Programming — Sequential decision optimization under uncertainty with Bayesian belief updating. ScholarGate. https://scholargate.app/ca/simulation/bayesian-dynamic-programming

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Citat per

ScholarGateBayesian Dynamic Programming (Bayesian Dynamic Programming — Sequential decision optimization under uncertainty with Bayesian belief updating). Recuperat el 2026-06-15 de https://scholargate.app/ca/simulation/bayesian-dynamic-programming · Conjunt de dades: https://doi.org/10.5281/zenodo.20539026