Machine learningReinforcement learning

Q-Learning

Il Q-learning, introdotto da Christopher Watkins e Peter Dayan nel 1992, è un algoritmo di apprendimento per rinforzo (reinforcement learning) model-free che apprende il valore di intraprendere ogni azione in ogni stato — la funzione Q — puramente dall'esperienza, senza un modello dell'ambiente. È off-policy: apprende i valori ottimali delle azioni seguendo una politica di comportamento esplorativa e, in condizioni standard, converge in modo dimostrabile alla politica ottimale.

Apri in MethodMindIn arrivoVideoIn arrivoDownload slides

Leggi il metodo completo

Riservato ai membri

Accedi con un account gratuito per leggere questa sezione.

Accedi

Method map

The neighbourhood of related methods — select a node to explore.

Q-Learning

Apprendimento per Rinfor…Programmazione Dinamica Metodi basati sul gradie…

Fonti

Watkins, C. J. C. H., & Dayan, P. (1992). Q-learning. Machine Learning, 8(3–4), 279–292. DOI: 10.1007/BF00992698 ↗
Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6

Come citare questa pagina

ScholarGate. (2026, June 2). Q-Learning (Off-Policy Temporal-Difference Control). ScholarGate. https://scholargate.app/it/machine-learning/q-learning

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Apprendimento per Rinforzo ProfondoApprendimento profondo↔ compare
Programmazione DinamicaOttimizzazione↔ compare
Metodi basati sul gradiente di policyApprendimento automatico↔ compare

Compare side by side →

Citato da

Metodi basati sul gradiente di policy

Hai notato un problema in questa pagina? Segnalalo o proponi una correzione →