Machine learningReinforcement learning

Q-Learning

Le Q-learning, introduit par Christopher Watkins et Peter Dayan en 1992, est un algorithme d'apprentissage par renforcement sans modèle qui apprend la valeur de chaque action dans chaque état — la fonction Q — purement par l'expérience, sans modèle de l'environnement. Il est hors-politique (off-policy) : il apprend les valeurs d'action optimales tout en suivant une politique de comportement exploratoire, et sous des conditions standard, il converge de manière prouvée vers la politique optimale.

Ouvrir dans MethodMindBientôtVidéoBientôtDownload slides

Lire la méthode complète

Réservé aux membres

Connectez-vous avec un compte gratuit pour lire cette section.

Se connecter

Method map

The neighbourhood of related methods — select a node to explore.

Q-Learning

Apprentissage par renfor…Programmation dynamique Méthodes de gradient de…

Sources

Watkins, C. J. C. H., & Dayan, P. (1992). Q-learning. Machine Learning, 8(3–4), 279–292. DOI: 10.1007/BF00992698 ↗
Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6

Comment citer cette page

ScholarGate. (2026, June 2). Q-Learning (Off-Policy Temporal-Difference Control). ScholarGate. https://scholargate.app/fr/machine-learning/q-learning

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Apprentissage par renforcement profondApprentissage profond↔ compare
Programmation dynamiqueOptimisation↔ compare
Méthodes de gradient de politiqueApprentissage automatique↔ compare

Compare side by side →

Référencée par

Méthodes de gradient de politique

Une erreur sur cette page ? Signalez-la ou proposez une correction →