Machine learningReinforcement learning

Métodos de Gradiente de Política

Los métodos de gradiente de política son algoritmos de aprendizaje por refuerzo que optimizan directamente una política parametrizada mediante ascenso por gradiente sobre el retorno esperado, en lugar de aprender valores de acción y actuar de forma codiciosa. Fundamentados en el algoritmo REINFORCE de Ronald Williams (1992) y el teorema del gradiente de política de Sutton y colegas (2000), manejan de forma natural espacios de acción estocásticos y continuos y sustentan los algoritmos modernos de actor-crítico y aprendizaje por refuerzo profundo (Deep RL).

Abrir en MethodMindPróximamenteVídeoPróximamenteDownload slides

Leer el método completo

Solo para miembros

Inicia sesión con una cuenta gratuita para leer esta sección.

Iniciar sesión

Method map

The neighbourhood of related methods — select a node to explore.

Métodos de Gradiente de Política

Optimización Convexa Aprendizaje por Refuerzo…Q-Learning Descenso de Gradiente Es…Aprendizaje por Refuerzo

Fuentes

Williams, R. J. (1992). Simple statistical gradient-following algorithms for connectionist reinforcement learning. Machine Learning, 8(3–4), 229–256. DOI: 10.1007/BF00992696 ↗
Sutton, R. S., McAllester, D., Singh, S., & Mansour, Y. (2000). Policy gradient methods for reinforcement learning with function approximation. Advances in Neural Information Processing Systems, 12, 1057–1063. link ↗

Cómo citar esta página

ScholarGate. (2026, June 2). Policy Gradient Methods (REINFORCE / Actor-Critic). ScholarGate. https://scholargate.app/es/machine-learning/policy-gradient

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Optimización ConvexaOptimización↔ compare
Aprendizaje por Refuerzo ProfundoAprendizaje profundo↔ compare
Q-LearningAprendizaje automático↔ compare
Descenso de Gradiente Estocástico (SGD)Aprendizaje automático↔ compare

Compare side by side →

Citado por

Q-Learning Aprendizaje por Refuerzo

¿Has visto un problema en esta página? Infórmanos o sugiere una corrección →