Machine learningReinforcement learning

Méthodes de gradient de politique

Les méthodes de gradient de politique sont des algorithmes d'apprentissage par renforcement qui optimisent directement une politique paramétrée par une ascension de gradient sur le retour attendu, plutôt que d'apprendre les valeurs des actions et d'agir de manière gloutonne. Fondées sur l'algorithme REINFORCE de Ronald Williams (1992) et le théorème du gradient de politique de Sutton et ses collègues (2000), elles gèrent naturellement les espaces d'actions stochastiques et continus et sous-tendent les algorithmes modernes d'acteur-critique et d'apprentissage par renforcement profond (deep-RL).

Ouvrir dans MethodMindBientôtVidéoBientôtDownload slides

Lire la méthode complète

Réservé aux membres

Connectez-vous avec un compte gratuit pour lire cette section.

Se connecter

Method map

The neighbourhood of related methods — select a node to explore.

Sources

  1. Williams, R. J. (1992). Simple statistical gradient-following algorithms for connectionist reinforcement learning. Machine Learning, 8(3–4), 229–256. DOI: 10.1007/BF00992696
  2. Sutton, R. S., McAllester, D., Singh, S., & Mansour, Y. (2000). Policy gradient methods for reinforcement learning with function approximation. Advances in Neural Information Processing Systems, 12, 1057–1063. link

Comment citer cette page

ScholarGate. (2026, June 2). Policy Gradient Methods (REINFORCE / Actor-Critic). ScholarGate. https://scholargate.app/fr/machine-learning/policy-gradient

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Référencée par

ScholarGatePolicy Gradient (Policy Gradient Methods (REINFORCE / Actor-Critic)). Consulté le 2026-06-15 sur https://scholargate.app/fr/machine-learning/policy-gradient · Jeu de données : https://doi.org/10.5281/zenodo.20539026