Machine learningReinforcement learning

Q-Learning

Q-learning, introducido por Christopher Watkins y Peter Dayan en 1992, es un algoritmo de aprendizaje por refuerzo libre de modelo que aprende el valor de tomar cada acción en cada estado —la función Q— puramente a partir de la experiencia, sin un modelo del entorno. Es fuera de política (off-policy): aprende los valores óptimos de las acciones mientras sigue una política de comportamiento exploratoria y, bajo condiciones estándar, converge demostrablemente a la política óptima.

Abrir en MethodMindPróximamenteVídeoPróximamenteDownload slides

Leer el método completo

Solo para miembros

Inicia sesión con una cuenta gratuita para leer esta sección.

Iniciar sesión

Method map

The neighbourhood of related methods — select a node to explore.

Fuentes

  1. Watkins, C. J. C. H., & Dayan, P. (1992). Q-learning. Machine Learning, 8(3–4), 279–292. DOI: 10.1007/BF00992698
  2. Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6

Cómo citar esta página

ScholarGate. (2026, June 2). Q-Learning (Off-Policy Temporal-Difference Control). ScholarGate. https://scholargate.app/es/machine-learning/q-learning

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Citado por

ScholarGateQ-Learning (Q-Learning (Off-Policy Temporal-Difference Control)). Recuperado el 2026-06-15 de https://scholargate.app/es/machine-learning/q-learning · Conjunto de datos: https://doi.org/10.5281/zenodo.20539026