Machine learningReinforcement learning

Métodos de Gradiente de Política

Los métodos de gradiente de política son algoritmos de aprendizaje por refuerzo que optimizan directamente una política parametrizada mediante ascenso por gradiente sobre el retorno esperado, en lugar de aprender valores de acción y actuar de forma codiciosa. Fundamentados en el algoritmo REINFORCE de Ronald Williams (1992) y el teorema del gradiente de política de Sutton y colegas (2000), manejan de forma natural espacios de acción estocásticos y continuos y sustentan los algoritmos modernos de actor-crítico y aprendizaje por refuerzo profundo (Deep RL).

Abrir en MethodMindPróximamenteVídeoPróximamenteDownload slides

Leer el método completo

Solo para miembros

Inicia sesión con una cuenta gratuita para leer esta sección.

Iniciar sesión

Method map

The neighbourhood of related methods — select a node to explore.

Fuentes

  1. Williams, R. J. (1992). Simple statistical gradient-following algorithms for connectionist reinforcement learning. Machine Learning, 8(3–4), 229–256. DOI: 10.1007/BF00992696
  2. Sutton, R. S., McAllester, D., Singh, S., & Mansour, Y. (2000). Policy gradient methods for reinforcement learning with function approximation. Advances in Neural Information Processing Systems, 12, 1057–1063. link

Cómo citar esta página

ScholarGate. (2026, June 2). Policy Gradient Methods (REINFORCE / Actor-Critic). ScholarGate. https://scholargate.app/es/machine-learning/policy-gradient

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Citado por

ScholarGatePolicy Gradient (Policy Gradient Methods (REINFORCE / Actor-Critic)). Recuperado el 2026-06-15 de https://scholargate.app/es/machine-learning/policy-gradient · Conjunto de datos: https://doi.org/10.5281/zenodo.20539026