Machine learningReinforcement learning

Q-oppiminen

Q-oppiminen, jonka Christopher Watkins ja Peter Dayan esittelivät vuonna 1992, on mallivapaa vahvistusoppimisalgoritmi, joka oppii kunkin toiminnon arvon kussakin tilassa – Q-funktion – puhtaasti kokemuksesta, ilman ympäristön mallia. Se on off-policy-algoritmi: se oppii optimaaliset toiminta-arvot samalla kun se noudattaa eksploratiivista käyttäytymispolitiikkaa, ja standardiolosuhteissa sen on todistettu konvergoituvan optimaaliseen politiikkaan.

Avaa sovelluksessa MethodMindTulossaVideoTulossaDownload slides

Lue koko menetelmä

Vain jäsenille

Kirjaudu sisään maksuttomalla tilillä lukeaksesi tämän osion.

Kirjaudu sisään

Method map

The neighbourhood of related methods — select a node to explore.

Lähteet

  1. Watkins, C. J. C. H., & Dayan, P. (1992). Q-learning. Machine Learning, 8(3–4), 279–292. DOI: 10.1007/BF00992698
  2. Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6

Näin viittaat tähän sivuun

ScholarGate. (2026, June 2). Q-Learning (Off-Policy Temporal-Difference Control). ScholarGate. https://scholargate.app/fi/machine-learning/q-learning

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Tähän viittaavat

ScholarGateQ-Learning (Q-Learning (Off-Policy Temporal-Difference Control)). Haettu 2026-06-15 osoitteesta https://scholargate.app/fi/machine-learning/q-learning · Aineisto: https://doi.org/10.5281/zenodo.20539026