Q-oppiminen
Q-oppiminen, jonka Christopher Watkins ja Peter Dayan esittelivät vuonna 1992, on mallivapaa vahvistusoppimisalgoritmi, joka oppii kunkin toiminnon arvon kussakin tilassa – Q-funktion – puhtaasti kokemuksesta, ilman ympäristön mallia. Se on off-policy-algoritmi: se oppii optimaaliset toiminta-arvot samalla kun se noudattaa eksploratiivista käyttäytymispolitiikkaa, ja standardiolosuhteissa sen on todistettu konvergoituvan optimaaliseen politiikkaan.
Lue koko menetelmä
Kirjaudu sisään maksuttomalla tilillä lukeaksesi tämän osion.
Method map
The neighbourhood of related methods — select a node to explore.
Lähteet
- Watkins, C. J. C. H., & Dayan, P. (1992). Q-learning. Machine Learning, 8(3–4), 279–292. DOI: 10.1007/BF00992698 ↗
- Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6
Näin viittaat tähän sivuun
ScholarGate. (2026, June 2). Q-Learning (Off-Policy Temporal-Difference Control). ScholarGate. https://scholargate.app/fi/machine-learning/q-learning
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Syvä vahvistusoppiminenSyväoppiminen↔ compare
- Dynaaminen ohjelmointiOptimointi↔ compare
- Policy Gradient -menetelmätKoneoppiminen↔ compare
Tähän viittaavat
Huomasitko virheen tällä sivulla? Ilmoita siitä tai ehdota korjausta →