Machine learningReinforcement learning

Policy-Gradient-Methoden

Policy-Gradient-Methoden sind Reinforcement-Learning-Algorithmen, die eine parametrisierte Policy direkt durch Gradientenaufstieg auf der erwarteten Rendite optimieren, anstatt Aktionswerte zu lernen und gierig zu handeln. Basierend auf Ronald Williams' REINFORCE-Algorithmus von 1992 und dem Policy-Gradient-Theorem von Sutton und Kollegen (2000) bewältigen sie stochastische und kontinuierliche Aktionsräume auf natürliche Weise und bilden die Grundlage moderner Actor-Critic- und Deep-RL-Algorithmen.

In MethodMind öffnenDemnächstVideoDemnächstDownload slides

Die vollständige Methode lesen

Nur für Mitglieder

Melden Sie sich mit einem kostenlosen Konto an, um diesen Abschnitt zu lesen.

Anmelden

Method map

The neighbourhood of related methods — select a node to explore.

Policy-Gradient-Methoden

Konvexe Optimierung Deep Reinforcement Learn…Q-Learning Stochastischer Gradiente…Reinforcement Learning

Quellen

Williams, R. J. (1992). Simple statistical gradient-following algorithms for connectionist reinforcement learning. Machine Learning, 8(3–4), 229–256. DOI: 10.1007/BF00992696 ↗
Sutton, R. S., McAllester, D., Singh, S., & Mansour, Y. (2000). Policy gradient methods for reinforcement learning with function approximation. Advances in Neural Information Processing Systems, 12, 1057–1063. link ↗

So zitieren Sie diese Seite

ScholarGate. (2026, June 2). Policy Gradient Methods (REINFORCE / Actor-Critic). ScholarGate. https://scholargate.app/de/machine-learning/policy-gradient

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Konvexe OptimierungOptimierung↔ compare
Deep Reinforcement LearningDeep Learning↔ compare
Q-LearningMaschinelles Lernen↔ compare
Stochastischer Gradientenabstieg (SGD)Maschinelles Lernen↔ compare

Compare side by side →

Referenziert von

Q-Learning Reinforcement Learning

Einen Fehler auf dieser Seite entdeckt? Melden oder Korrektur vorschlagen →