ScholarGate
Asisten
Machine learningReinforcement learning

Q-Learning

Q-learning, yang diperkenalkan oleh Christopher Watkins dan Peter Dayan pada tahun 1992, adalah algoritma pembelajaran penguatan (reinforcement learning) yang bebas model (model-free) yang mempelajari nilai dari setiap tindakan dalam setiap keadaan — fungsi Q — murni dari pengalaman, tanpa model lingkungan. Algoritma ini bersifat di luar kebijakan (off-policy): ia mempelajari nilai tindakan optimal sambil mengikuti kebijakan perilaku eksploratif, dan dalam kondisi standar terbukti konvergen ke kebijakan optimal.

Buka di MethodMindSegeraVideoSegeraDownload slides

Baca metode selengkapnya

Khusus anggota

Masuk dengan akun gratis untuk membaca bagian ini.

Masuk

Method map

The neighbourhood of related methods — select a node to explore.

Sumber

  1. Watkins, C. J. C. H., & Dayan, P. (1992). Q-learning. Machine Learning, 8(3–4), 279–292. DOI: 10.1007/BF00992698
  2. Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6

Cara menyitasi halaman ini

ScholarGate. (2026, June 2). Q-Learning (Off-Policy Temporal-Difference Control). ScholarGate. https://scholargate.app/id/machine-learning/q-learning

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Dirujuk oleh

ScholarGateQ-Learning (Q-Learning (Off-Policy Temporal-Difference Control)). Diakses 2026-06-15 dari https://scholargate.app/id/machine-learning/q-learning · Set data: https://doi.org/10.5281/zenodo.20539026