Métodos de Gradiente de Política
Los métodos de gradiente de política son algoritmos de aprendizaje por refuerzo que optimizan directamente una política parametrizada mediante ascenso por gradiente sobre el retorno esperado, en lugar de aprender valores de acción y actuar de forma codiciosa. Fundamentados en el algoritmo REINFORCE de Ronald Williams (1992) y el teorema del gradiente de política de Sutton y colegas (2000), manejan de forma natural espacios de acción estocásticos y continuos y sustentan los algoritmos modernos de actor-crítico y aprendizaje por refuerzo profundo (Deep RL).
Leer el método completo
Inicia sesión con una cuenta gratuita para leer esta sección.
Method map
The neighbourhood of related methods — select a node to explore.
Fuentes
- Williams, R. J. (1992). Simple statistical gradient-following algorithms for connectionist reinforcement learning. Machine Learning, 8(3–4), 229–256. DOI: 10.1007/BF00992696 ↗
- Sutton, R. S., McAllester, D., Singh, S., & Mansour, Y. (2000). Policy gradient methods for reinforcement learning with function approximation. Advances in Neural Information Processing Systems, 12, 1057–1063. link ↗
Cómo citar esta página
ScholarGate. (2026, June 2). Policy Gradient Methods (REINFORCE / Actor-Critic). ScholarGate. https://scholargate.app/es/machine-learning/policy-gradient
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Optimización ConvexaOptimización↔ compare
- Aprendizaje por Refuerzo ProfundoAprendizaje profundo↔ compare
- Q-LearningAprendizaje automático↔ compare
- Descenso de Gradiente Estocástico (SGD)Aprendizaje automático↔ compare
Citado por
¿Has visto un problema en esta página? Infórmanos o sugiere una corrección →