ScholarGate
Assistent
Machine learningReinforcement learning

Policy-Gradient-Methoden

Policy-Gradient-Methoden sind Reinforcement-Learning-Algorithmen, die eine parametrisierte Policy direkt durch Gradientenaufstieg auf der erwarteten Rendite optimieren, anstatt Aktionswerte zu lernen und gierig zu handeln. Basierend auf Ronald Williams' REINFORCE-Algorithmus von 1992 und dem Policy-Gradient-Theorem von Sutton und Kollegen (2000) bewältigen sie stochastische und kontinuierliche Aktionsräume auf natürliche Weise und bilden die Grundlage moderner Actor-Critic- und Deep-RL-Algorithmen.

In MethodMind öffnenDemnächstVideoDemnächstDownload slides

Die vollständige Methode lesen

Nur für Mitglieder

Melden Sie sich mit einem kostenlosen Konto an, um diesen Abschnitt zu lesen.

Anmelden

Method map

The neighbourhood of related methods — select a node to explore.

Quellen

  1. Williams, R. J. (1992). Simple statistical gradient-following algorithms for connectionist reinforcement learning. Machine Learning, 8(3–4), 229–256. DOI: 10.1007/BF00992696
  2. Sutton, R. S., McAllester, D., Singh, S., & Mansour, Y. (2000). Policy gradient methods for reinforcement learning with function approximation. Advances in Neural Information Processing Systems, 12, 1057–1063. link

So zitieren Sie diese Seite

ScholarGate. (2026, June 2). Policy Gradient Methods (REINFORCE / Actor-Critic). ScholarGate. https://scholargate.app/de/machine-learning/policy-gradient

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Referenziert von

ScholarGatePolicy Gradient (Policy Gradient Methods (REINFORCE / Actor-Critic)). Abgerufen am 2026-06-15 von https://scholargate.app/de/machine-learning/policy-gradient · Datensatz: https://doi.org/10.5281/zenodo.20539026