Machine learningReinforcement learning

Métodos de Gradiente de Política

Métodos de gradiente de política são algoritmos de aprendizado por reforço que otimizam uma política parametrizada diretamente por ascensão de gradiente no retorno esperado, em vez de aprender valores de ação e agir de forma gulosa. Fundamentados no algoritmo REINFORCE de Ronald Williams (1992) e no teorema do gradiente de política de Sutton e colegas (2000), eles lidam naturalmente com espaços de ação estocásticos e contínuos e sustentam algoritmos modernos de ator-crítico e RL profundo.

Abrir no MethodMindEm breveVídeoEm breveDownload slides

Leia o método completo

Exclusivo para membros

Entre com uma conta gratuita para ler esta seção.

Entrar

Method map

The neighbourhood of related methods — select a node to explore.

Métodos de Gradiente de Política

Otimização Convexa Aprendizado por Reforço…Q-Learning Gradiente Descendente Es…Aprendizagem por Reforço

Fontes

Williams, R. J. (1992). Simple statistical gradient-following algorithms for connectionist reinforcement learning. Machine Learning, 8(3–4), 229–256. DOI: 10.1007/BF00992696 ↗
Sutton, R. S., McAllester, D., Singh, S., & Mansour, Y. (2000). Policy gradient methods for reinforcement learning with function approximation. Advances in Neural Information Processing Systems, 12, 1057–1063. link ↗

Como citar esta página

ScholarGate. (2026, June 2). Policy Gradient Methods (REINFORCE / Actor-Critic). ScholarGate. https://scholargate.app/pt/machine-learning/policy-gradient

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Otimização ConvexaOtimização↔ compare
Aprendizado por Reforço ProfundoAprendizado profundo↔ compare
Q-LearningAprendizado de máquina↔ compare
Gradiente Descendente Estocástico (SGD)Aprendizado de máquina↔ compare

Compare side by side →

Referenciado por

Q-Learning Aprendizagem por Reforço

Encontrou um problema nesta página? Relate ou sugira uma correção →