Machine learningReinforcement learning

Q-oppiminen

Q-oppiminen, jonka Christopher Watkins ja Peter Dayan esittelivät vuonna 1992, on mallivapaa vahvistusoppimisalgoritmi, joka oppii kunkin toiminnon arvon kussakin tilassa – Q-funktion – puhtaasti kokemuksesta, ilman ympäristön mallia. Se on off-policy-algoritmi: se oppii optimaaliset toiminta-arvot samalla kun se noudattaa eksploratiivista käyttäytymispolitiikkaa, ja standardiolosuhteissa sen on todistettu konvergoituvan optimaaliseen politiikkaan.

Avaa sovelluksessa MethodMindTulossaVideoTulossaDownload slides

Lue koko menetelmä

Vain jäsenille

Kirjaudu sisään maksuttomalla tilillä lukeaksesi tämän osion.

Kirjaudu sisään

Method map

The neighbourhood of related methods — select a node to explore.

Q-oppiminen

Syvä vahvistusoppiminen Dynaaminen ohjelmointi Policy Gradient -menetel…

Lähteet

Watkins, C. J. C. H., & Dayan, P. (1992). Q-learning. Machine Learning, 8(3–4), 279–292. DOI: 10.1007/BF00992698 ↗
Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6

Näin viittaat tähän sivuun

ScholarGate. (2026, June 2). Q-Learning (Off-Policy Temporal-Difference Control). ScholarGate. https://scholargate.app/fi/machine-learning/q-learning

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Syvä vahvistusoppiminenSyväoppiminen↔ compare
Dynaaminen ohjelmointiOptimointi↔ compare
Policy Gradient -menetelmätKoneoppiminen↔ compare

Compare side by side →

Tähän viittaavat

Policy Gradient -menetelmät

Huomasitko virheen tällä sivulla? Ilmoita siitä tai ehdota korjausta →