Méthodes de gradient de politique
Les méthodes de gradient de politique sont des algorithmes d'apprentissage par renforcement qui optimisent directement une politique paramétrée par une ascension de gradient sur le retour attendu, plutôt que d'apprendre les valeurs des actions et d'agir de manière gloutonne. Fondées sur l'algorithme REINFORCE de Ronald Williams (1992) et le théorème du gradient de politique de Sutton et ses collègues (2000), elles gèrent naturellement les espaces d'actions stochastiques et continus et sous-tendent les algorithmes modernes d'acteur-critique et d'apprentissage par renforcement profond (deep-RL).
Lire la méthode complète
Connectez-vous avec un compte gratuit pour lire cette section.
Method map
The neighbourhood of related methods — select a node to explore.
Sources
- Williams, R. J. (1992). Simple statistical gradient-following algorithms for connectionist reinforcement learning. Machine Learning, 8(3–4), 229–256. DOI: 10.1007/BF00992696 ↗
- Sutton, R. S., McAllester, D., Singh, S., & Mansour, Y. (2000). Policy gradient methods for reinforcement learning with function approximation. Advances in Neural Information Processing Systems, 12, 1057–1063. link ↗
Comment citer cette page
ScholarGate. (2026, June 2). Policy Gradient Methods (REINFORCE / Actor-Critic). ScholarGate. https://scholargate.app/fr/machine-learning/policy-gradient
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Optimisation convexeOptimisation↔ compare
- Apprentissage par renforcement profondApprentissage profond↔ compare
- Q-LearningApprentissage automatique↔ compare
- Descente de gradient stochastique (SGD)Apprentissage automatique↔ compare
Référencée par
Une erreur sur cette page ? Signalez-la ou proposez une correction →