Wie unterscheidet sich Reinforcement Learning von überwachtem Lernen?

Beim überwachten Lernen wird für jede Eingabe die korrekte Ausgabe vorgegeben. Ein Reinforcement-Learning-Agent erhält nur ein Belohnungssignal, das die Ergebnisse seiner Aktionen bewertet, muss gutes Verhalten durch Versuch und Irrtum entdecken und muss mit Belohnungen umgehen, die lange nach den Aktionen eintreffen, die sie verdient haben.

Was ist der Exploration-Exploitation-Trade-off?

Ein Agent muss wählen zwischen dem Ausnutzen von Aktionen, die bekanntermaßen gute Belohnungen liefern, und dem Erforschen unversuchter Aktionen, die möglicherweise noch besser sind. Zu wenig Exploration kann zu einer suboptimalen Strategie führen, während zu viel Gelegenheiten verschwendet; daher ist das Ausbalancieren beider Aspekte zentral für Reinforcement Learning.

Reinforcement Learning

Reinforcement Learning trainiert einen Agenten, Entscheidungssequenzen durch Versuch und Irrtum zu treffen, um die kumulative Belohnung durch Interaktion mit einer Umgebung zu maximieren.

Thema finden mit PaperMindDemnächstFind papers & topics

Tools & resources

Folien herunterladen

Learn & explore

VideoDemnächst

Definition

Reinforcement Learning ist das Problem, eine Policy zu lernen, eine Abbildung von Situationen auf Aktionen, die die erwartete kumulative Belohnung maximiert, wobei der Agent aus den Konsequenzen seiner eigenen Aktionen lernt und nicht aus gelabelten Beispielen korrekten Verhaltens.

Scope

Dieser Bereich umfasst das Lernen zu handeln: das Markov-Entscheidungsprozess-Framework von Zuständen, Aktionen, Belohnungen und Übergängen; Wertfunktionen und die Bellman-Gleichungen; wertbasierte Methoden wie Temporal-Difference-Lernen und Q-Learning; Policy-Gradient-Methoden, die eine Policy direkt optimieren; und die Kombination dieser Ideen mit tiefen neuronalen Netzen. Es behandelt den Exploration-Exploitation-Trade-off und die Herausforderung der verzögerten Belohnung.

Sub-topics

Core questions

Wie kann ein Agent gutes Verhalten allein aus Belohnungssignalen lernen?
Wie sind langfristiger Wert und unmittelbare Belohnung durch die Bellman-Gleichungen miteinander verbunden?
Wie sollte ein Agent das Erforschen neuer Aktionen gegen das Ausnutzen bekannter guter Aktionen abwägen?
Wie wird früheren Aktionen für spätere Belohnungen die Verantwortung zugewiesen?

Key theories

Markov-Entscheidungsprozesse und Wertfunktionen: Die Interaktion wird als Markov-Entscheidungsprozess modelliert, und Wertfunktionen fassen die erwartete zukünftige Belohnung zusammen, die Bellman-Gleichungen erfüllen, welche fast allen Reinforcement-Learning-Algorithmen zugrunde liegen.
Temporal-Difference-Lernen: Agenten können Wertschätzungen durch Bootstrapping lernen, indem sie Vorhersagen in Richtung späterer Vorhersagen plus beobachteter Belohnung aktualisieren, was das Lernen aus unvollständigen Episoden und Online-Erfahrungen ermöglicht.
Deep Reinforcement Learning: Die Verwendung tiefer neuronaler Netze zur Approximation von Wertfunktionen oder Policies ermöglicht es Reinforcement Learning, auf hochdimensionale Eingaben zu skalieren, wie von Agenten demonstriert, die lernten, Atari-Spiele und das Spiel Go zu spielen.

Clinical relevance

Reinforcement Learning befasst sich mit sequenzieller Entscheidungsfindung unter Unsicherheit und hat Fortschritte in den Bereichen Spiel, Robotik, Empfehlung und Steuerung vorangetrieben, sowie die Ausrichtung großer Sprachmodelle durch Lernen aus Feedback; seine Trial-and-Error-Natur und die Schwierigkeit, Belohnungen zu spezifizieren, machen sicheres und sample-effizientes Lernen zu aktuellen Anliegen.

History

Reinforcement Learning vereinte Ideen aus der optimalen Steuerung, der dynamischen Programmierung und dem Tierlernen. Temporal-Difference-Lernen und Q-Learning entstanden in den 1980er und frühen 1990er Jahren, und Suttons und Bartos Lehrbuch kodifizierte das Feld. Die Kombination mit Deep Learning in den 2010er Jahren führte zu Agenten, die menschliches Spielniveau bei Atari-Spielen und übermenschliches Spiel bei Go erreichten.

Debates

Stichproben-Effizienz und Belohnungsdesign: Reinforcement Learning kann eine enorme Interaktion erfordern und ist empfindlich gegenüber der Art und Weise, wie Belohnungen spezifiziert werden, was zu Debatten darüber führt, wie es dateneffizienter gestaltet werden kann und wie vermieden werden kann, dass Agenten falsch spezifizierte Belohnungen ausnutzen.

Key figures

Richard Sutton
Andrew Barto
Christopher Watkins
David Silver

Seminal works

sutton2018
mnih2015
silver2016

Frequently asked questions

Wie unterscheidet sich Reinforcement Learning von überwachtem Lernen?: Beim überwachten Lernen wird für jede Eingabe die korrekte Ausgabe vorgegeben. Ein Reinforcement-Learning-Agent erhält nur ein Belohnungssignal, das die Ergebnisse seiner Aktionen bewertet, muss gutes Verhalten durch Versuch und Irrtum entdecken und muss mit Belohnungen umgehen, die lange nach den Aktionen eintreffen, die sie verdient haben.
Was ist der Exploration-Exploitation-Trade-off?: Ein Agent muss wählen zwischen dem Ausnutzen von Aktionen, die bekanntermaßen gute Belohnungen liefern, und dem Erforschen unversuchter Aktionen, die möglicherweise noch besser sind. Zu wenig Exploration kann zu einer suboptimalen Strategie führen, während zu viel Gelegenheiten verschwendet; daher ist das Ausbalancieren beider Aspekte zentral für Reinforcement Learning.