Q-Learning
Q-Learning, 1992 von Christopher Watkins und Peter Dayan eingeführt, ist ein modellfreier Reinforcement-Learning-Algorithmus, der den Wert jeder Aktion in jedem Zustand – die Q-Funktion – rein aus Erfahrung lernt, ohne ein Modell der Umgebung. Er ist Off-Policy: Er lernt die optimalen Aktionswerte, während er einer explorativen Verhaltensstrategie folgt, und konvergiert unter Standardbedingungen nachweislich zur optimalen Strategie.
Die vollständige Methode lesen
Melden Sie sich mit einem kostenlosen Konto an, um diesen Abschnitt zu lesen.
Method map
The neighbourhood of related methods — select a node to explore.
Quellen
- Watkins, C. J. C. H., & Dayan, P. (1992). Q-learning. Machine Learning, 8(3–4), 279–292. DOI: 10.1007/BF00992698 ↗
- Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6
So zitieren Sie diese Seite
ScholarGate. (2026, June 2). Q-Learning (Off-Policy Temporal-Difference Control). ScholarGate. https://scholargate.app/de/machine-learning/q-learning
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Deep Reinforcement LearningDeep Learning↔ compare
- Dynamische ProgrammierungOptimierung↔ compare
- Policy-Gradient-MethodenMaschinelles Lernen↔ compare
Referenziert von
Einen Fehler auf dieser Seite entdeckt? Melden oder Korrektur vorschlagen →