Machine learningReinforcement learning

Q-Learning

Le Q-learning, introduit par Christopher Watkins et Peter Dayan en 1992, est un algorithme d'apprentissage par renforcement sans modèle qui apprend la valeur de chaque action dans chaque état — la fonction Q — purement par l'expérience, sans modèle de l'environnement. Il est hors-politique (off-policy) : il apprend les valeurs d'action optimales tout en suivant une politique de comportement exploratoire, et sous des conditions standard, il converge de manière prouvée vers la politique optimale.

Ouvrir dans MethodMindBientôtVidéoBientôtDownload slides

Lire la méthode complète

Réservé aux membres

Connectez-vous avec un compte gratuit pour lire cette section.

Se connecter

Method map

The neighbourhood of related methods — select a node to explore.

Sources

  1. Watkins, C. J. C. H., & Dayan, P. (1992). Q-learning. Machine Learning, 8(3–4), 279–292. DOI: 10.1007/BF00992698
  2. Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6

Comment citer cette page

ScholarGate. (2026, June 2). Q-Learning (Off-Policy Temporal-Difference Control). ScholarGate. https://scholargate.app/fr/machine-learning/q-learning

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Référencée par

ScholarGateQ-Learning (Q-Learning (Off-Policy Temporal-Difference Control)). Consulté le 2026-06-15 sur https://scholargate.app/fr/machine-learning/q-learning · Jeu de données : https://doi.org/10.5281/zenodo.20539026