Q-Learning
Q-learning, introduceret af Christopher Watkins og Peter Dayan i 1992, er en model-fri forstærkningslæringsalgoritme, der lærer værdien af at tage hver handling i hver tilstand – Q-funktionen – udelukkende fra erfaring, uden en model af omgivelserne. Den er off-policy: den lærer de optimale handlingsværdier, mens den følger en udforskende adfærdspolitik, og under standardbetingelser konvergerer den beviseligt mod den optimale politik.
Læs hele metoden
Log ind med en gratis konto for at læse dette afsnit.
Method map
The neighbourhood of related methods — select a node to explore.
Kilder
- Watkins, C. J. C. H., & Dayan, P. (1992). Q-learning. Machine Learning, 8(3–4), 279–292. DOI: 10.1007/BF00992698 ↗
- Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6
Sådan citerer du denne side
ScholarGate. (2026, June 2). Q-Learning (Off-Policy Temporal-Difference Control). ScholarGate. https://scholargate.app/da/machine-learning/q-learning
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Dyb ForstærkningslæringDyb læring↔ compare
- Dynamisk ProgrammeringOptimering↔ compare
- Policy Gradient-metoderMaskinlæring↔ compare
Refereret af
Har du fundet en fejl på denne side? Indberet den eller foreslå en rettelse →