Wovon bootstrappt das Temporal-Difference-Lernen?

Es aktualisiert den Wert des aktuellen Zustands unter Verwendung der beobachteten Belohnung plus seiner eigenen Schätzung des Werts des nächsten Zustands. Da es teilweise auf einer anderen Schätzung beruht, anstatt auf das Endergebnis zu warten, kann es online und aus unvollständigen Episoden lernen.

Warum wird Q-Learning als Off-Policy bezeichnet?

Q-Learning lernt den Wert der optimalen Politik, auch wenn der Agent eine andere, explorative Politik verfolgt, um Erfahrungen zu sammeln. Das zur Datenerfassung verwendete Verhalten und die zu bewertende Politik können sich unterscheiden, was Off-Policy bedeutet.

Wertbasierte Methoden

Wertbasierte Methoden lernen, wie gut Zustände und Aktionen sind, und handeln dann gierig in Bezug auf diese Schätzungen, um eine gute Politik zu erhalten.

Thema finden mit PaperMindDemnächstFind papers & topics

Tools & resources

Folien herunterladen

Learn & explore

VideoDemnächst

Definition

Wertbasierte Methoden schätzen die erwartete Rendite von Zuständen oder Zustands-Aktions-Paaren und leiten eine Politik ab, indem sie Aktionen mit dem höchsten geschätzten Wert auswählen; sie lernen diese Schätzungen inkrementell aus Erfahrung, oft durch Temporal-Difference-Updates, die eine Vorhersage an eine spätere, besser informierte anpassen.

Scope

Dieses Thema behandelt Reinforcement-Learning-Algorithmen, die sich auf Wertfunktionen konzentrieren: Monte-Carlo-Schätzung aus vollständigen Episoden, Temporal-Difference-Lernen, das von späteren Schätzungen bootstrappt, und die Kontrollalgorithmen Sarsa und Q-Learning. Es befasst sich mit On-Policy- versus Off-Policy-Lernen, Exploration durch Strategien wie Epsilon-Greedy und der Verwendung von Funktionsapproximation, wenn zu viele Zustände zur Aufzählung vorhanden sind.

Core questions

Wie werden Aktionswerte aus Erfahrung gelernt?
Wie kombiniert Temporal-Difference-Lernen Sampling mit Bootstrapping?
Was ist der Unterschied zwischen On-Policy- und Off-Policy-Lernen?
Wie wird Exploration gehandhabt, wenn gierig auf Wertschätzungen gehandelt wird?

Key theories

Temporal-Difference-Lernen: Temporal-Difference-Methoden aktualisieren eine Wertschätzung in Richtung der beobachteten Belohnung plus der diskontierten Schätzung des nächsten Zustands und lernen online aus unvollständigen Episoden ohne ein Modell der Umgebung.
Q-Learning: Q-Learning schätzt den Wert der besten Aktion in jedem Zustand und konvergiert zur optimalen Aktionswertfunktion, unabhängig von der Politik, die zur Sammlung von Erfahrungen verwendet wird, was es zu einer grundlegenden Off-Policy-Methode macht.
Wertapproximation mit tiefen Netzwerken: Die Darstellung der Aktionswertfunktion mit einem tiefen Netzwerk ermöglicht es wertbasierten Methoden, hochdimensionale Eingaben wie Rohpixel zu verarbeiten, wie im Deep Q-Network, das lernte, viele Atari-Spiele zu spielen.

Clinical relevance

Wertbasierte Methoden gehören zu den am weitesten verbreiteten Reinforcement-Learning-Algorithmen, und Q-Learning in Kombination mit tiefen Netzwerken erzeugte die ersten Agenten, die direkt aus hochdimensionalen sensorischen Eingaben menschliches Leistungsniveau erreichten, was zeigt, wie die Wertschätzung auf komplexe Aufgaben skaliert werden kann.

History

Sutton führte 1988 das Temporal-Difference-Lernen ein, und Watkins' Q-Learning von 1989 lieferte eine konvergente Off-Policy-Kontrollmethode. Die Kombination von Q-Learning mit tiefen Netzwerken im Deep Q-Network von 2015 brachte wertbasiertes Reinforcement Learning zu hochdimensionalen Problemen und leitete die moderne Ära des Deep Reinforcement Learning ein.

Key figures

Richard Sutton
Christopher Watkins
Volodymyr Mnih

Seminal works

sutton2018
mnih2015
watkins1992

Frequently asked questions

Wovon bootstrappt das Temporal-Difference-Lernen?: Es aktualisiert den Wert des aktuellen Zustands unter Verwendung der beobachteten Belohnung plus seiner eigenen Schätzung des Werts des nächsten Zustands. Da es teilweise auf einer anderen Schätzung beruht, anstatt auf das Endergebnis zu warten, kann es online und aus unvollständigen Episoden lernen.
Warum wird Q-Learning als Off-Policy bezeichnet?: Q-Learning lernt den Wert der optimalen Politik, auch wenn der Agent eine andere, explorative Politik verfolgt, um Erfahrungen zu sammeln. Das zur Datenerfassung verwendete Verhalten und die zu bewertende Politik können sich unterscheiden, was Off-Policy bedeutet.