Pembelajaran Penguatan
Pembelajaran Penguatan (RL) adalah sebuah kerangka kerja di mana agen belajar membuat keputusan sekuensial dengan berinteraksi dengan lingkungan, menerima sinyal imbalan skalar, dan memperbarui kebijakan untuk memaksimalkan imbalan kumulatif di masa depan. Berbeda dengan pembelajaran terarah, tidak ada contoh berlabel yang diberikan; agen menemukan perilaku optimal sepenuhnya melalui pengalaman dan umpan balik yang tertunda.
Baca metode selengkapnya
Masuk dengan akun gratis untuk membaca bagian ini.
Method map
The neighbourhood of related methods — select a node to explore.
+2 more
Sumber
- Sutton, R. S. & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6
- Mnih, V., Kavukcuoglu, K., Silver, D., et al. (2015). Human-level control through deep reinforcement learning. Nature, 518, 529–533. DOI: 10.1038/nature14236 ↗
Cara menyitasi halaman ini
ScholarGate. (2026, June 3). Reinforcement Learning (Agent-Environment Reward Optimization). ScholarGate. https://scholargate.app/id/deep-learning/reinforcement-learning
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Metode Gradien KebijakanPembelajaran Mesin↔ compare
- Jaringan Saraf Berulang (Recurrent Neural Network - RNN)Pembelajaran Mendalam↔ compare
Dirujuk oleh
Menemukan masalah di halaman ini? Laporkan atau usulkan perbaikan →