ScholarGate
Assistente
Machine learningReinforcement learning

Métodos de Gradiente de Política

Métodos de gradiente de política são algoritmos de aprendizado por reforço que otimizam uma política parametrizada diretamente por ascensão de gradiente no retorno esperado, em vez de aprender valores de ação e agir de forma gulosa. Fundamentados no algoritmo REINFORCE de Ronald Williams (1992) e no teorema do gradiente de política de Sutton e colegas (2000), eles lidam naturalmente com espaços de ação estocásticos e contínuos e sustentam algoritmos modernos de ator-crítico e RL profundo.

Abrir no MethodMindEm breveVídeoEm breveDownload slides

Leia o método completo

Exclusivo para membros

Entre com uma conta gratuita para ler esta seção.

Entrar

Method map

The neighbourhood of related methods — select a node to explore.

Fontes

  1. Williams, R. J. (1992). Simple statistical gradient-following algorithms for connectionist reinforcement learning. Machine Learning, 8(3–4), 229–256. DOI: 10.1007/BF00992696
  2. Sutton, R. S., McAllester, D., Singh, S., & Mansour, Y. (2000). Policy gradient methods for reinforcement learning with function approximation. Advances in Neural Information Processing Systems, 12, 1057–1063. link

Como citar esta página

ScholarGate. (2026, June 2). Policy Gradient Methods (REINFORCE / Actor-Critic). ScholarGate. https://scholargate.app/pt/machine-learning/policy-gradient

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Referenciado por

ScholarGatePolicy Gradient (Policy Gradient Methods (REINFORCE / Actor-Critic)). Recuperado em 2026-06-15 de https://scholargate.app/pt/machine-learning/policy-gradient · Conjunto de dados: https://doi.org/10.5281/zenodo.20539026