Was ist ein Belohnungsvorhersagefehler?

Es ist die Differenz zwischen der Belohnung, die ein Ergebnis liefert, und der erwarteten Belohnung. Dopaminneuronen im Mittelhirn signalisieren diese Differenz, feuern mehr bei besser als erwarteten Ergebnissen und weniger bei schlechter als erwarteten, was ein Lernsignal liefert, das zukünftige Erwartungen aktualisiert.

Ist Dopamin die 'Glückschemikalie' des Gehirns?

Diese populäre Beschreibung ist irreführend. Viele Beweise deuten darauf hin, dass phasische Dopaminsignale primär mit dem Lernen und der Vorhersage von Belohnung zusammenhängen und nicht mit dem Erleben von Vergnügen selbst, das andere Systeme zu involvieren scheint.

Belohnung und Entscheidungsfindung

Die Belohnungsverarbeitung und wertbasierte Entscheidungsfindung befassen sich damit, wie das Gehirn den Wert von Ergebnissen repräsentiert, aus den Konsequenzen von Handlungen lernt und zwischen Optionen wählt. Dopaminneuronen im Mittelhirn signalisieren Diskrepanzen zwischen erwarteter und erhaltener Belohnung, und ein Netzwerk, das das Striatum, den orbitofrontalen und ventromedialen präfrontalen Kortex umfasst, berechnet und vergleicht den Wert von Entscheidungen, um das Verhalten zu steuern.

Thema finden mit PaperMindDemnächstFind papers & topics

Tools & resources

Folien herunterladen

Learn & explore

VideoDemnächst

Definition

Belohnung und Entscheidungsfindung ist die Untersuchung, wie das Gehirn Ergebnissen einen Wert zuweist, Erwartungen durch Lernen aus Vorhersagefehlern aktualisiert und diese Wertrepräsentationen verwendet, um zwischen konkurrierenden Handlungen zu wählen.

Scope

Dieses Thema behandelt die Neurowissenschaften der Belohnung und wertbasierten Entscheidungsfindung als Referenzmaterial in der kognitiven Neurowissenschaft. Es führt in die Signalgebung von Belohnungsvorhersagefehlern, die Bewertungssysteme des Gehirns, Rahmenwerke des verstärkenden Lernens und die Relevanz dieser Schaltkreise für Motivation und Belohnungsstörungen ein. Es erklärt Mechanismen und Evidenz und ist keine klinische Leitlinie.

Core questions

Wie repräsentiert das Gehirn den Wert verschiedener Ergebnisse und Optionen?
Wie ermöglichen Dopaminsignale und Mechanismen des verstärkenden Lernens dem Gehirn, aus Belohnung und Bestrafung zu lernen?
Welche Regionen berechnen, vergleichen und handeln auf der Grundlage von Werten während der Entscheidungsfindung?

Key concepts

Belohnungsvorhersagefehler
Phasische Dopaminsignalgebung
Verstärkendes Lernen und zeitdifferenzielles Lernen
Subjektiver und erwarteter Wert
Orbitofrontale und ventromediale präfrontale Bewertung
Striatum und Handlungswert
Exploration versus Exploitation
Belohnungsbezogene Störungen

Key theories

Hypothese des Belohnungsvorhersagefehlers von Dopamin: Die phasische Aktivität von Dopaminneuronen im Mittelhirn kodiert einen Belohnungsvorhersagefehler, die Differenz zwischen erhaltener und erwarteter Belohnung, und liefert ein Lehrsignal der Art, die im zeitdifferenziellen verstärkenden Lernen verwendet wird, um Wertschätzungen zu aktualisieren.
Rahmenwerk der wertbasierten Entscheidungsfindung: Die Wahl wird in Stufen zerlegt: Repräsentation von Optionen, Bewertung, Aktionsauswahl, Ergebnisbewertung und Lernen, wodurch unterschiedliche neuronale Systeme jedem Rechenschritt zugeordnet werden können, anstatt die Entscheidung als einen einzigen Prozess zu behandeln.

Mechanisms

Ein zentraler Mechanismus ist der Belohnungsvorhersagefehler: Dopaminneuronen im Mittelhirn erhöhen ihre Feuerrate, wenn ein Ergebnis besser als erwartet ist, und verringern sie, wenn es schlechter ist, ein Muster, das dem Lehrsignal des zeitdifferenziellen verstärkenden Lernens entspricht (Schultz et al., 1997). Es wird angenommen, dass diese Signale Wertrepräsentationen in Zielregionen aktualisieren, insbesondere im Striatum, wo die neuronale Aktivität den Wert verfügbarer Handlungen widerspiegelt (Samejima et al., 2005). Der orbitofrontale und ventromediale präfrontale Kortex repräsentieren den Wert von Gütern und Optionen auf einer gemeinsamen Skala, die einen Vergleich zwischen den Wahlmöglichkeiten ermöglicht (Wallis, 2007). Die Entscheidungsfindung kann als Abfolge von Rechenstufen analysiert werden: Repräsentation, Bewertung, Auswahl und Lernen, die jeweils von teilweise unterschiedlichen Schaltkreisen unterstützt werden (Rangel et al., 2008).

Clinical relevance

Belohnungs- und Bewertungsschaltkreise sind daran beteiligt, wie Forscher und Kliniker Motivation und eine Reihe von Erkrankungen verstehen, einschließlich Sucht, Depression und die Auswirkungen dopaminerger Erkrankungen und Behandlungen, wie durch verändertes verstärkendes Lernen bei Parkinson-Krankheit gezeigt (Frank et al., 2004). Dieser Eintrag ist eine Bildungsreferenz zu Belohnungs- und Entscheidungsmechanismen und keine Grundlage für die Diagnose oder Behandlung einer Person.

Evidence & guidelines

Die Darstellung basiert auf konvergierenden Beweisen aus Einzelzellableitungen bei Tieren, menschlicher Neurobildgebung, computationaler Modellierung und Studien an Patienten mit dopaminergen Störungen (Schultz et al., 1997; Samejima et al., 2005; Frank et al., 2004), zusammengefasst in wichtigen Übersichtsartikeln zu Bewertung und Wahl (Rangel et al., 2008; Wallis, 2007).

History

Frühe elektrische Selbststimulationsexperimente in den 1950er Jahren identifizierten Hirnregionen, deren Aktivierung Tiere zu erlangen versuchten, was die Idee eines Belohnungssystems etablierte. In den 1980er und 1990er Jahren interpretierten Schultz und Kollegen die Aufzeichnungen von Dopaminneuronen im Mittelhirn, zusammen mit der von Sutton und Barto entwickelten und von Montague und Dayan angewandten Theorie des verstärkenden Lernens, Dopamin als ein Vorhersagefehlersignal und nicht als ein Lustsignal. Das anschließende Aufkommen der Neuroökonomie integrierte ökonomische Werttheorien mit der Neurowissenschaft, um zu untersuchen, wie das Gehirn Werte während der Wahl berechnet und vergleicht.

Debates

Was genau kodiert Dopamin?: Die Vorhersagefehler-Hypothese ist einflussreich, aber es wird weiterhin diskutiert, ob phasische Dopaminsignale streng einen Belohnungsvorhersagefehler kodieren oder auch Salienz, Neuheit oder motivationalen Elan vermitteln und wie sich tonische und phasische Signale in ihrer Funktion unterscheiden.

Key figures

Wolfram Schultz
Peter Dayan
P. Read Montague
Antonio Rangel
Michael Frank

Seminal works

schultz-1997
rangel-2008
wallis-2007

Frequently asked questions

Was ist ein Belohnungsvorhersagefehler?: Es ist die Differenz zwischen der Belohnung, die ein Ergebnis liefert, und der erwarteten Belohnung. Dopaminneuronen im Mittelhirn signalisieren diese Differenz, feuern mehr bei besser als erwarteten Ergebnissen und weniger bei schlechter als erwarteten, was ein Lernsignal liefert, das zukünftige Erwartungen aktualisiert.
Ist Dopamin die 'Glückschemikalie' des Gehirns?: Diese populäre Beschreibung ist irreführend. Viele Beweise deuten darauf hin, dass phasische Dopaminsignale primär mit dem Lernen und der Vorhersage von Belohnung zusammenhängen und nicht mit dem Erleben von Vergnügen selbst, das andere Systeme zu involvieren scheint.