Q-Learning
Il Q-learning, introdotto da Christopher Watkins e Peter Dayan nel 1992, è un algoritmo di apprendimento per rinforzo (reinforcement learning) model-free che apprende il valore di intraprendere ogni azione in ogni stato — la funzione Q — puramente dall'esperienza, senza un modello dell'ambiente. È off-policy: apprende i valori ottimali delle azioni seguendo una politica di comportamento esplorativa e, in condizioni standard, converge in modo dimostrabile alla politica ottimale.
Leggi il metodo completo
Accedi con un account gratuito per leggere questa sezione.
Method map
The neighbourhood of related methods — select a node to explore.
Fonti
- Watkins, C. J. C. H., & Dayan, P. (1992). Q-learning. Machine Learning, 8(3–4), 279–292. DOI: 10.1007/BF00992698 ↗
- Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6
Come citare questa pagina
ScholarGate. (2026, June 2). Q-Learning (Off-Policy Temporal-Difference Control). ScholarGate. https://scholargate.app/it/machine-learning/q-learning
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Apprendimento per Rinforzo ProfondoApprendimento profondo↔ compare
- Programmazione DinamicaOttimizzazione↔ compare
- Metodi basati sul gradiente di policyApprendimento automatico↔ compare
Citato da
Hai notato un problema in questa pagina? Segnalalo o proponi una correzione →