Qu'est-ce qu'une erreur de prédiction de récompense ?

C'est la différence entre la récompense qu'un résultat procure et la récompense qui était attendue. Les neurones dopaminergiques du mésencéphale signalent cette différence, s'activant davantage pour les résultats meilleurs que prévu et moins pour ceux moins bons que prévu, ce qui fournit un signal d'apprentissage qui met à jour les attentes futures.

La dopamine est-elle la 'substance chimique du plaisir' du cerveau ?

Cette description populaire est trompeuse. De nombreuses preuves indiquent que les signaux dopaminergiques phasiques sont principalement liés à l'apprentissage et à la prédiction de la récompense plutôt qu'à l'expérience du plaisir elle-même, qui semble impliquer d'autres systèmes.

Récompense et prise de décision

Le traitement de la récompense et la prise de décision basée sur la valeur concernent la manière dont le cerveau représente la valeur des résultats, apprend des conséquences des actions et choisit parmi les options. Les neurones dopaminergiques du mésencéphale signalent les écarts entre la récompense attendue et la récompense reçue, et un réseau comprenant le striatum, le cortex orbitofrontal et le cortex préfrontal ventromédian calcule et compare la valeur des choix pour guider le comportement.

Trouver un sujet avec PaperMindBientôtFind papers & topics

Tools & resources

Télécharger les diapositives

Learn & explore

VidéoBientôt

Definition

La récompense et la prise de décision est l'étude de la manière dont le cerveau attribue une valeur aux résultats, met à jour les attentes par l'apprentissage à partir des erreurs de prédiction, et utilise ces représentations de valeur pour sélectionner parmi des actions concurrentes.

Scope

Ce sujet couvre la neuroscience de la récompense et de la prise de décision basée sur la valeur en tant que matériel de référence en neurosciences cognitives. Il présente la signalisation de l'erreur de prédiction de récompense, les systèmes d'évaluation du cerveau, les cadres d'apprentissage par renforcement, et la pertinence de ces circuits pour la motivation et les troubles de la récompense. Il explique les mécanismes et les preuves et ne constitue pas une directive clinique.

Core questions

Comment le cerveau représente-t-il la valeur des différents résultats et options ?
Comment les signaux dopaminergiques et les mécanismes d'apprentissage par renforcement permettent-ils au cerveau d'apprendre de la récompense et de la punition ?
Quelles régions calculent, comparent et agissent sur la valeur lors de la prise de décision ?

Key concepts

Erreur de prédiction de récompense
Signalisation dopaminergique phasique
Apprentissage par renforcement et apprentissage par différence temporelle
Valeur subjective et attendue
Évaluation orbitofrontale et préfrontale ventromédiane
Striatum et valeur d'action
Exploration versus exploitation
Troubles liés à la récompense

Key theories

Hypothèse de l'erreur de prédiction de récompense de la dopamine: L'activité phasique des neurones dopaminergiques du mésencéphale encode une erreur de prédiction de récompense, la différence entre la récompense reçue et la récompense attendue, fournissant un signal d'enseignement du type utilisé dans l'apprentissage par renforcement par différence temporelle pour mettre à jour les estimations de valeur.
Cadre de la prise de décision basée sur la valeur: Le choix est décomposé en étapes : représentation des options, évaluation, sélection de l'action, évaluation du résultat et apprentissage, permettant ainsi de mapper des systèmes neuronaux distincts sur chaque étape computationnelle plutôt que de traiter la décision comme un processus unique.

Mechanisms

Un mécanisme central est l'erreur de prédiction de récompense : les neurones dopaminergiques du mésencéphale augmentent leur activité lorsque le résultat est meilleur que prévu et la diminuent lorsqu'il est moins bon, un schéma correspondant au signal d'enseignement de l'apprentissage par renforcement par différence temporelle (Schultz et al., 1997). Ces signaux sont considérés comme mettant à jour les représentations de valeur dans les régions cibles, en particulier le striatum, où l'activité neuronale reflète la valeur des actions disponibles (Samejima et al., 2005). Le cortex orbitofrontal et le cortex préfrontal ventromédian représentent la valeur des biens et des options sur une échelle commune qui permet la comparaison entre les choix (Wallis, 2007). La prise de décision peut être analysée comme une séquence d'étapes computationnelles : représentation, évaluation, sélection et apprentissage, chacune étant soutenue par des circuits partiellement distincts (Rangel et al., 2008).

Clinical relevance

Les circuits de récompense et d'évaluation sont impliqués dans la manière dont les chercheurs et les cliniciens comprennent la motivation et un éventail de conditions, y compris la dépendance, la dépression, et les effets des maladies et traitements dopaminergiques, comme le montre l'apprentissage par renforcement altéré dans la maladie de Parkinson (Frank et al., 2004). Cette entrée est une référence éducative sur les mécanismes de récompense et de décision et ne constitue pas une base pour diagnostiquer ou traiter un individu.

Evidence & guidelines

Cette description repose sur des preuves convergentes issues d'enregistrements unicellulaires chez l'animal, de la neuroimagerie humaine, de la modélisation computationnelle et d'études de patients atteints de troubles dopaminergiques (Schultz et al., 1997; Samejima et al., 2005; Frank et al., 2004), synthétisées dans des revues majeures sur l'évaluation et le choix (Rangel et al., 2008; Wallis, 2007).

History

Les premières expériences d'auto-stimulation électrique dans les années 1950 ont identifié des régions cérébrales dont l'activation était recherchée par les animaux, établissant ainsi l'idée d'un système de récompense. Au cours des années 1980 et 1990, les enregistrements des neurones dopaminergiques du mésencéphale par Schultz et ses collègues, interprétés à l'aide de la théorie de l'apprentissage par renforcement développée par Sutton et Barto et appliquée par Montague et Dayan, ont redéfini la dopamine comme un signal d'erreur de prédiction plutôt qu'un signal de plaisir. L'émergence ultérieure de la neuroéconomie a intégré les théories économiques de la valeur aux neurosciences pour étudier comment le cerveau calcule et compare la valeur lors des choix.

Debates

Que code exactement la dopamine ?: L'explication de l'erreur de prédiction est influente, mais le débat se poursuit pour savoir si les signaux dopaminergiques phasiques encodent strictement une erreur de prédiction de récompense ou s'ils transmettent également la saillance, la nouveauté ou la vigueur motivationnelle, et comment les signaux toniques et phasiques diffèrent dans leur fonction.

Key figures

Wolfram Schultz
Peter Dayan
P. Read Montague
Antonio Rangel
Michael Frank

Seminal works

schultz-1997
rangel-2008
wallis-2007

Frequently asked questions

Qu'est-ce qu'une erreur de prédiction de récompense ?: C'est la différence entre la récompense qu'un résultat procure et la récompense qui était attendue. Les neurones dopaminergiques du mésencéphale signalent cette différence, s'activant davantage pour les résultats meilleurs que prévu et moins pour ceux moins bons que prévu, ce qui fournit un signal d'apprentissage qui met à jour les attentes futures.
La dopamine est-elle la 'substance chimique du plaisir' du cerveau ?: Cette description populaire est trompeuse. De nombreuses preuves indiquent que les signaux dopaminergiques phasiques sont principalement liés à l'apprentissage et à la prédiction de la récompense plutôt qu'à l'expérience du plaisir elle-même, qui semble impliquer d'autres systèmes.