ScholarGate
Assistente
Machine learningReinforcement learning

Q-Learning

Il Q-learning, introdotto da Christopher Watkins e Peter Dayan nel 1992, è un algoritmo di apprendimento per rinforzo (reinforcement learning) model-free che apprende il valore di intraprendere ogni azione in ogni stato — la funzione Q — puramente dall'esperienza, senza un modello dell'ambiente. È off-policy: apprende i valori ottimali delle azioni seguendo una politica di comportamento esplorativa e, in condizioni standard, converge in modo dimostrabile alla politica ottimale.

Apri in MethodMindIn arrivoVideoIn arrivoDownload slides

Leggi il metodo completo

Riservato ai membri

Accedi con un account gratuito per leggere questa sezione.

Accedi

Method map

The neighbourhood of related methods — select a node to explore.

Fonti

  1. Watkins, C. J. C. H., & Dayan, P. (1992). Q-learning. Machine Learning, 8(3–4), 279–292. DOI: 10.1007/BF00992698
  2. Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6

Come citare questa pagina

ScholarGate. (2026, June 2). Q-Learning (Off-Policy Temporal-Difference Control). ScholarGate. https://scholargate.app/it/machine-learning/q-learning

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Citato da

ScholarGateQ-Learning (Q-Learning (Off-Policy Temporal-Difference Control)). Consultato il 2026-06-15 da https://scholargate.app/it/machine-learning/q-learning · Insieme di dati: https://doi.org/10.5281/zenodo.20539026