Q-læring
Q-læring, introdusert av Christopher Watkins og Peter Dayan i 1992, er en modellfri forsterkningslæringsalgoritme som lærer verdien av å utføre hver handling i hver tilstand – Q-funksjonen – utelukkende fra erfaring, uten en modell av miljøet. Den er off-policy: den lærer de optimale handlingsverdiene mens den følger en utforskende atferdspolicy, og under standardforhold konvergerer den beviselig mot den optimale policyen.
Les hele metoden
Logg inn med en gratis konto for å lese denne delen.
Method map
The neighbourhood of related methods — select a node to explore.
Kilder
- Watkins, C. J. C. H., & Dayan, P. (1992). Q-learning. Machine Learning, 8(3–4), 279–292. DOI: 10.1007/BF00992698 ↗
- Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6
Slik siterer du denne siden
ScholarGate. (2026, June 2). Q-Learning (Off-Policy Temporal-Difference Control). ScholarGate. https://scholargate.app/no/machine-learning/q-learning
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Dyp forsterkningslæringDyp læring↔ compare
- Dynamisk programmeringOptimering↔ compare
- Policy Gradient-metoderMaskinlæring↔ compare
Referert av
Funnet en feil på denne siden? Rapporter eller foreslå en rettelse →