Machine learningReinforcement learning

Méthodes de gradient de politique

Les méthodes de gradient de politique sont des algorithmes d'apprentissage par renforcement qui optimisent directement une politique paramétrée par une ascension de gradient sur le retour attendu, plutôt que d'apprendre les valeurs des actions et d'agir de manière gloutonne. Fondées sur l'algorithme REINFORCE de Ronald Williams (1992) et le théorème du gradient de politique de Sutton et ses collègues (2000), elles gèrent naturellement les espaces d'actions stochastiques et continus et sous-tendent les algorithmes modernes d'acteur-critique et d'apprentissage par renforcement profond (deep-RL).

Ouvrir dans MethodMindBientôtVidéoBientôtDownload slides

Lire la méthode complète

Réservé aux membres

Connectez-vous avec un compte gratuit pour lire cette section.

Se connecter

Method map

The neighbourhood of related methods — select a node to explore.

Méthodes de gradient de politique

Optimisation convexe Apprentissage par renfor…Q-Learning Descente de gradient sto…Apprentissage par renfor…

Sources

Williams, R. J. (1992). Simple statistical gradient-following algorithms for connectionist reinforcement learning. Machine Learning, 8(3–4), 229–256. DOI: 10.1007/BF00992696 ↗
Sutton, R. S., McAllester, D., Singh, S., & Mansour, Y. (2000). Policy gradient methods for reinforcement learning with function approximation. Advances in Neural Information Processing Systems, 12, 1057–1063. link ↗

Comment citer cette page

ScholarGate. (2026, June 2). Policy Gradient Methods (REINFORCE / Actor-Critic). ScholarGate. https://scholargate.app/fr/machine-learning/policy-gradient

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Optimisation convexeOptimisation↔ compare
Apprentissage par renforcement profondApprentissage profond↔ compare
Q-LearningApprentissage automatique↔ compare
Descente de gradient stochastique (SGD)Apprentissage automatique↔ compare

Compare side by side →

Référencée par

Q-Learning Apprentissage par renforcement

Une erreur sur cette page ? Signalez-la ou proposez une correction →