Wertbasierte Methoden
Wertbasierte Methoden lernen, wie gut Zustände und Aktionen sind, und handeln dann gierig in Bezug auf diese Schätzungen, um eine gute Politik zu erhalten.
Definition
Wertbasierte Methoden schätzen die erwartete Rendite von Zuständen oder Zustands-Aktions-Paaren und leiten eine Politik ab, indem sie Aktionen mit dem höchsten geschätzten Wert auswählen; sie lernen diese Schätzungen inkrementell aus Erfahrung, oft durch Temporal-Difference-Updates, die eine Vorhersage an eine spätere, besser informierte anpassen.
Scope
Dieses Thema behandelt Reinforcement-Learning-Algorithmen, die sich auf Wertfunktionen konzentrieren: Monte-Carlo-Schätzung aus vollständigen Episoden, Temporal-Difference-Lernen, das von späteren Schätzungen bootstrappt, und die Kontrollalgorithmen Sarsa und Q-Learning. Es befasst sich mit On-Policy- versus Off-Policy-Lernen, Exploration durch Strategien wie Epsilon-Greedy und der Verwendung von Funktionsapproximation, wenn zu viele Zustände zur Aufzählung vorhanden sind.
Core questions
- Wie werden Aktionswerte aus Erfahrung gelernt?
- Wie kombiniert Temporal-Difference-Lernen Sampling mit Bootstrapping?
- Was ist der Unterschied zwischen On-Policy- und Off-Policy-Lernen?
- Wie wird Exploration gehandhabt, wenn gierig auf Wertschätzungen gehandelt wird?
Key theories
- Temporal-Difference-Lernen
- Temporal-Difference-Methoden aktualisieren eine Wertschätzung in Richtung der beobachteten Belohnung plus der diskontierten Schätzung des nächsten Zustands und lernen online aus unvollständigen Episoden ohne ein Modell der Umgebung.
- Q-Learning
- Q-Learning schätzt den Wert der besten Aktion in jedem Zustand und konvergiert zur optimalen Aktionswertfunktion, unabhängig von der Politik, die zur Sammlung von Erfahrungen verwendet wird, was es zu einer grundlegenden Off-Policy-Methode macht.
- Wertapproximation mit tiefen Netzwerken
- Die Darstellung der Aktionswertfunktion mit einem tiefen Netzwerk ermöglicht es wertbasierten Methoden, hochdimensionale Eingaben wie Rohpixel zu verarbeiten, wie im Deep Q-Network, das lernte, viele Atari-Spiele zu spielen.
Clinical relevance
Wertbasierte Methoden gehören zu den am weitesten verbreiteten Reinforcement-Learning-Algorithmen, und Q-Learning in Kombination mit tiefen Netzwerken erzeugte die ersten Agenten, die direkt aus hochdimensionalen sensorischen Eingaben menschliches Leistungsniveau erreichten, was zeigt, wie die Wertschätzung auf komplexe Aufgaben skaliert werden kann.
History
Sutton führte 1988 das Temporal-Difference-Lernen ein, und Watkins' Q-Learning von 1989 lieferte eine konvergente Off-Policy-Kontrollmethode. Die Kombination von Q-Learning mit tiefen Netzwerken im Deep Q-Network von 2015 brachte wertbasiertes Reinforcement Learning zu hochdimensionalen Problemen und leitete die moderne Ära des Deep Reinforcement Learning ein.
Key figures
- Richard Sutton
- Christopher Watkins
- Volodymyr Mnih
Related topics
Seminal works
- sutton2018
- mnih2015
- watkins1992
Frequently asked questions
- Wovon bootstrappt das Temporal-Difference-Lernen?
- Es aktualisiert den Wert des aktuellen Zustands unter Verwendung der beobachteten Belohnung plus seiner eigenen Schätzung des Werts des nächsten Zustands. Da es teilweise auf einer anderen Schätzung beruht, anstatt auf das Endergebnis zu warten, kann es online und aus unvollständigen Episoden lernen.
- Warum wird Q-Learning als Off-Policy bezeichnet?
- Q-Learning lernt den Wert der optimalen Politik, auch wenn der Agent eine andere, explorative Politik verfolgt, um Erfahrungen zu sammeln. Das zur Datenerfassung verwendete Verhalten und die zu bewertende Politik können sich unterscheiden, was Off-Policy bedeutet.