Q-Learning
Le Q-learning, introduit par Christopher Watkins et Peter Dayan en 1992, est un algorithme d'apprentissage par renforcement sans modèle qui apprend la valeur de chaque action dans chaque état — la fonction Q — purement par l'expérience, sans modèle de l'environnement. Il est hors-politique (off-policy) : il apprend les valeurs d'action optimales tout en suivant une politique de comportement exploratoire, et sous des conditions standard, il converge de manière prouvée vers la politique optimale.
Lire la méthode complète
Connectez-vous avec un compte gratuit pour lire cette section.
Method map
The neighbourhood of related methods — select a node to explore.
Sources
- Watkins, C. J. C. H., & Dayan, P. (1992). Q-learning. Machine Learning, 8(3–4), 279–292. DOI: 10.1007/BF00992698 ↗
- Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6
Comment citer cette page
ScholarGate. (2026, June 2). Q-Learning (Off-Policy Temporal-Difference Control). ScholarGate. https://scholargate.app/fr/machine-learning/q-learning
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Apprentissage par renforcement profondApprentissage profond↔ compare
- Programmation dynamiqueOptimisation↔ compare
- Méthodes de gradient de politiqueApprentissage automatique↔ compare
Référencée par
Une erreur sur cette page ? Signalez-la ou proposez une correction →