Machine learningReinforcement learning

Q-Learning

Q-learning, introducido por Christopher Watkins y Peter Dayan en 1992, es un algoritmo de aprendizaje por refuerzo libre de modelo que aprende el valor de tomar cada acción en cada estado —la función Q— puramente a partir de la experiencia, sin un modelo del entorno. Es fuera de política (off-policy): aprende los valores óptimos de las acciones mientras sigue una política de comportamiento exploratoria y, bajo condiciones estándar, converge demostrablemente a la política óptima.

Abrir en MethodMindPróximamenteVídeoPróximamenteDownload slides

Leer el método completo

Solo para miembros

Inicia sesión con una cuenta gratuita para leer esta sección.

Iniciar sesión

Method map

The neighbourhood of related methods — select a node to explore.

Q-Learning

Aprendizaje por Refuerzo…Programación Dinámica Métodos de Gradiente de…

Fuentes

Watkins, C. J. C. H., & Dayan, P. (1992). Q-learning. Machine Learning, 8(3–4), 279–292. DOI: 10.1007/BF00992698 ↗
Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6

Cómo citar esta página

ScholarGate. (2026, June 2). Q-Learning (Off-Policy Temporal-Difference Control). ScholarGate. https://scholargate.app/es/machine-learning/q-learning

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Aprendizaje por Refuerzo ProfundoAprendizaje profundo↔ compare
Programación DinámicaOptimización↔ compare
Métodos de Gradiente de PolíticaAprendizaje automático↔ compare

Compare side by side →

Citado por

Métodos de Gradiente de Política

¿Has visto un problema en esta página? Infórmanos o sugiere una corrección →