Machine learningReinforcement learning

Q-Learning

Q-learning, yang diperkenalkan oleh Christopher Watkins dan Peter Dayan pada tahun 1992, adalah algoritma pembelajaran penguatan (reinforcement learning) yang bebas model (model-free) yang mempelajari nilai dari setiap tindakan dalam setiap keadaan — fungsi Q — murni dari pengalaman, tanpa model lingkungan. Algoritma ini bersifat di luar kebijakan (off-policy): ia mempelajari nilai tindakan optimal sambil mengikuti kebijakan perilaku eksploratif, dan dalam kondisi standar terbukti konvergen ke kebijakan optimal.

Buka di MethodMindSegeraVideoSegeraDownload slides

Baca metode selengkapnya

Khusus anggota

Masuk dengan akun gratis untuk membaca bagian ini.

Masuk

Method map

The neighbourhood of related methods — select a node to explore.

Q-Learning

Pembelajaran Penguatan D…Pemrograman Dinamis Metode Gradien Kebijakan

Sumber

Watkins, C. J. C. H., & Dayan, P. (1992). Q-learning. Machine Learning, 8(3–4), 279–292. DOI: 10.1007/BF00992698 ↗
Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6

Cara menyitasi halaman ini

ScholarGate. (2026, June 2). Q-Learning (Off-Policy Temporal-Difference Control). ScholarGate. https://scholargate.app/id/machine-learning/q-learning

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Pembelajaran Penguatan DalamPembelajaran Mendalam↔ compare
Pemrograman DinamisOptimasi↔ compare
Metode Gradien KebijakanPembelajaran Mesin↔ compare

Compare side by side →

Dirujuk oleh

Metode Gradien Kebijakan

Menemukan masalah di halaman ini? Laporkan atau usulkan perbaikan →