Pengaturcaraan Dinamik Bayesian — Pengoptimuman keputusan berurutan dengan kemas kini kepercayaan Bayesian
Pengaturcaraan Dinamik Bayesian (BDP) menggabungkan rangka kerja pengaturcaraan dinamik Bellman dengan inferens Bayesian untuk mengoptimumkan keputusan berurutan apabila kebarangkalian peralihan atau struktur ganjaran tidak diketahui. Pada setiap peringkat, ejen mengemas kini kepercayaan tentang persekitaran menggunakan hasil yang diperhatikan, kemudian mengira dasar optimum yang secara eksplisit mengambil kira kedua-dua ganjaran segera dan nilai maklumat yang diperoleh melalui penerokaan.
Baca kaedah sepenuhnya
Log masuk dengan akaun percuma untuk membaca bahagian ini.
Method map
The neighbourhood of related methods — select a node to explore.
Sumber
- Bertsekas, D. P. (1995). Dynamic Programming and Optimal Control. Athena Scientific, Belmont, MA. ISBN: 9781886529267
- Duff, M. O. (2002). Optimal Learning: Computational procedures for Bayes-adaptive Markov decision processes. PhD Dissertation, University of Massachusetts Amherst. link ↗
Cara memetik halaman ini
ScholarGate. (2026, June 3). Bayesian Dynamic Programming — Sequential decision optimization under uncertainty with Bayesian belief updating. ScholarGate. https://scholargate.app/ms/simulation/bayesian-dynamic-programming
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Model Markov BayesianSimulasi↔ compare
- Pengaturcaraan DinamikPengoptimuman↔ compare
- Pembelajaran PengukuhanPembelajaran Mendalam↔ compare
- Pengaturcaraan Dinamik StokastikSimulasi↔ compare
Dirujuk oleh
Terjumpa masalah pada halaman ini? Laporkan atau cadangkan pembetulan →