Warum die Policy direkt optimieren statt einer Wertfunktion?

Die direkte Policy-Optimierung handhabt stochastische Policies und kontinuierliche Aktionsräume auf natürliche Weise, wo die Ableitung einer Policy aus einer Wertfunktion umständlich ist. Sie ermöglicht auch eine reibungslose, inkrementelle Verbesserung des Verhaltens, was für Steuerungs- und Robotikaufgaben geeignet ist.

Was ist eine Actor-Critic-Methode?

Eine Actor-Critic-Methode unterhält zwei gelernte Komponenten: einen Actor, die Policy, die Aktionen auswählt, und einen Critic, eine Wertschätzung, die beurteilt, wie gut diese Aktionen waren. Das Feedback des Critics reduziert die Varianz der Policy-Updates, wodurch das Lernen stabiler wird.

Policy-Gradient-Methoden

Policy-Gradient-Methoden optimieren eine parametrisierte Policy direkt, indem sie den Gradienten der erwarteten Belohnung aufsteigen, anstatt die Policy aus einer Wertfunktion abzuleiten.

Thema finden mit PaperMindDemnächstFind papers & topics

Tools & resources

Folien herunterladen

Learn & explore

VideoDemnächst

Definition

Policy-Gradient-Methoden stellen die Policy als eine differenzierbare Funktion von Parametern dar und aktualisieren diese Parameter in die Richtung, die die erwartete kumulative Belohnung erhöht, wobei der erforderliche Gradient aus Stichproben von Trajektorien der Interaktion des Agenten mit der Umgebung geschätzt wird.

Scope

Dieses Thema behandelt Reinforcement-Learning-Methoden, die Policy-Parameter direkt anpassen: das Policy-Gradient-Theorem und den REINFORCE-Algorithmus, die Verwendung von Baselines und Advantage-Schätzungen zur Reduzierung der Varianz, Actor-Critic-Methoden, die eine gelernte Policy mit einer gelernten Wertfunktion kombinieren, sowie moderne Trust-Region- und Proximal-Policy-Optimierung. Es wird erläutert, warum die direkte Policy-Optimierung für kontinuierliche Aktionen und stochastische Policies geeignet ist.

Core questions

Wie kann eine Policy direkt durch Gradientenanstieg verbessert werden?
Was drückt das Policy-Gradient-Theorem aus?
Wie reduzieren Baselines und Kritiker die Varianz von Gradientenschätzungen?
Warum eignen sich Policy-Gradient-Methoden gut für kontinuierliche Aktionsräume?

Key theories

Das Policy-Gradient-Theorem: Der Gradient der erwarteten Belohnung in Bezug auf Policy-Parameter kann als Erwartungswert über Trajektorien ausgedrückt werden, wodurch er aus gesammelten Erfahrungen geschätzt werden kann, ohne die Umgebung zu differenzieren.
Actor-Critic-Methoden: Die Kombination einer Policy, die durch Gradientenanstieg verbessert wird, mit einer gelernten Wertfunktion, die eine kritikarme Bewertung liefert, führt zu Actor-Critic-Methoden, die stabiler und effizienter lernen als reine Policy-Gradienten.
Policy-Optimierung in großem Maßstab: Policy-basiertes Lernen, oft kombiniert mit Wertschätzung und Suche, ist die Grundlage für groß angelegte Erfolge wie die Go-spielenden Systeme, die das Spiel durch Selbstspiel gemeistert haben.

Clinical relevance

Policy-Gradient- und Actor-Critic-Methoden sind der Standardansatz für Reinforcement Learning in der kontinuierlichen Steuerung, Robotik und der Feinabstimmung großer Sprachmodelle durch menschliches Feedback, da sie stochastische Policies direkt optimieren und Aktionsräume handhaben, mit denen wertbasierte Methoden Schwierigkeiten haben.

History

Williams' REINFORCE-Algorithmus im Jahr 1992 bot eine direkte Möglichkeit zur Schätzung von Policy-Gradienten, und das Policy-Gradient-Theorem der späten 1990er Jahre lieferte eine rigorose Grundlage. Actor-Critic-Architekturen und spätere Trust-Region- und Proximal-Methoden verbesserten die Stabilität und machten die Policy-Optimierung zu einem zentralen Bestandteil des modernen großskaligen Reinforcement Learning.

Key figures

Ronald Williams
Richard Sutton
David Silver

Seminal works

sutton2018
silver2016
williams1992

Frequently asked questions

Warum die Policy direkt optimieren statt einer Wertfunktion?: Die direkte Policy-Optimierung handhabt stochastische Policies und kontinuierliche Aktionsräume auf natürliche Weise, wo die Ableitung einer Policy aus einer Wertfunktion umständlich ist. Sie ermöglicht auch eine reibungslose, inkrementelle Verbesserung des Verhaltens, was für Steuerungs- und Robotikaufgaben geeignet ist.
Was ist eine Actor-Critic-Methode?: Eine Actor-Critic-Methode unterhält zwei gelernte Komponenten: einen Actor, die Policy, die Aktionen auswählt, und einen Critic, eine Wertschätzung, die beurteilt, wie gut diese Aktionen waren. Das Feedback des Critics reduziert die Varianz der Policy-Updates, wodurch das Lernen stabiler wird.