Métodos de Gradiente de Política
Métodos de gradiente de política são algoritmos de aprendizado por reforço que otimizam uma política parametrizada diretamente por ascensão de gradiente no retorno esperado, em vez de aprender valores de ação e agir de forma gulosa. Fundamentados no algoritmo REINFORCE de Ronald Williams (1992) e no teorema do gradiente de política de Sutton e colegas (2000), eles lidam naturalmente com espaços de ação estocásticos e contínuos e sustentam algoritmos modernos de ator-crítico e RL profundo.
Leia o método completo
Entre com uma conta gratuita para ler esta seção.
Method map
The neighbourhood of related methods — select a node to explore.
Fontes
- Williams, R. J. (1992). Simple statistical gradient-following algorithms for connectionist reinforcement learning. Machine Learning, 8(3–4), 229–256. DOI: 10.1007/BF00992696 ↗
- Sutton, R. S., McAllester, D., Singh, S., & Mansour, Y. (2000). Policy gradient methods for reinforcement learning with function approximation. Advances in Neural Information Processing Systems, 12, 1057–1063. link ↗
Como citar esta página
ScholarGate. (2026, June 2). Policy Gradient Methods (REINFORCE / Actor-Critic). ScholarGate. https://scholargate.app/pt/machine-learning/policy-gradient
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Otimização ConvexaOtimização↔ compare
- Aprendizado por Reforço ProfundoAprendizado profundo↔ compare
- Q-LearningAprendizado de máquina↔ compare
- Gradiente Descendente Estocástico (SGD)Aprendizado de máquina↔ compare
Referenciado por
Encontrou um problema nesta página? Relate ou sugira uma correção →