Récompense et prise de décision
Le traitement de la récompense et la prise de décision basée sur la valeur concernent la manière dont le cerveau représente la valeur des résultats, apprend des conséquences des actions et choisit parmi les options. Les neurones dopaminergiques du mésencéphale signalent les écarts entre la récompense attendue et la récompense reçue, et un réseau comprenant le striatum, le cortex orbitofrontal et le cortex préfrontal ventromédian calcule et compare la valeur des choix pour guider le comportement.
Definition
La récompense et la prise de décision est l'étude de la manière dont le cerveau attribue une valeur aux résultats, met à jour les attentes par l'apprentissage à partir des erreurs de prédiction, et utilise ces représentations de valeur pour sélectionner parmi des actions concurrentes.
Scope
Ce sujet couvre la neuroscience de la récompense et de la prise de décision basée sur la valeur en tant que matériel de référence en neurosciences cognitives. Il présente la signalisation de l'erreur de prédiction de récompense, les systèmes d'évaluation du cerveau, les cadres d'apprentissage par renforcement, et la pertinence de ces circuits pour la motivation et les troubles de la récompense. Il explique les mécanismes et les preuves et ne constitue pas une directive clinique.
Core questions
- Comment le cerveau représente-t-il la valeur des différents résultats et options ?
- Comment les signaux dopaminergiques et les mécanismes d'apprentissage par renforcement permettent-ils au cerveau d'apprendre de la récompense et de la punition ?
- Quelles régions calculent, comparent et agissent sur la valeur lors de la prise de décision ?
Key concepts
- Erreur de prédiction de récompense
- Signalisation dopaminergique phasique
- Apprentissage par renforcement et apprentissage par différence temporelle
- Valeur subjective et attendue
- Évaluation orbitofrontale et préfrontale ventromédiane
- Striatum et valeur d'action
- Exploration versus exploitation
- Troubles liés à la récompense
Key theories
- Hypothèse de l'erreur de prédiction de récompense de la dopamine
- L'activité phasique des neurones dopaminergiques du mésencéphale encode une erreur de prédiction de récompense, la différence entre la récompense reçue et la récompense attendue, fournissant un signal d'enseignement du type utilisé dans l'apprentissage par renforcement par différence temporelle pour mettre à jour les estimations de valeur.
- Cadre de la prise de décision basée sur la valeur
- Le choix est décomposé en étapes : représentation des options, évaluation, sélection de l'action, évaluation du résultat et apprentissage, permettant ainsi de mapper des systèmes neuronaux distincts sur chaque étape computationnelle plutôt que de traiter la décision comme un processus unique.
Mechanisms
Un mécanisme central est l'erreur de prédiction de récompense : les neurones dopaminergiques du mésencéphale augmentent leur activité lorsque le résultat est meilleur que prévu et la diminuent lorsqu'il est moins bon, un schéma correspondant au signal d'enseignement de l'apprentissage par renforcement par différence temporelle (Schultz et al., 1997). Ces signaux sont considérés comme mettant à jour les représentations de valeur dans les régions cibles, en particulier le striatum, où l'activité neuronale reflète la valeur des actions disponibles (Samejima et al., 2005). Le cortex orbitofrontal et le cortex préfrontal ventromédian représentent la valeur des biens et des options sur une échelle commune qui permet la comparaison entre les choix (Wallis, 2007). La prise de décision peut être analysée comme une séquence d'étapes computationnelles : représentation, évaluation, sélection et apprentissage, chacune étant soutenue par des circuits partiellement distincts (Rangel et al., 2008).
Clinical relevance
Les circuits de récompense et d'évaluation sont impliqués dans la manière dont les chercheurs et les cliniciens comprennent la motivation et un éventail de conditions, y compris la dépendance, la dépression, et les effets des maladies et traitements dopaminergiques, comme le montre l'apprentissage par renforcement altéré dans la maladie de Parkinson (Frank et al., 2004). Cette entrée est une référence éducative sur les mécanismes de récompense et de décision et ne constitue pas une base pour diagnostiquer ou traiter un individu.
Evidence & guidelines
Cette description repose sur des preuves convergentes issues d'enregistrements unicellulaires chez l'animal, de la neuroimagerie humaine, de la modélisation computationnelle et d'études de patients atteints de troubles dopaminergiques (Schultz et al., 1997; Samejima et al., 2005; Frank et al., 2004), synthétisées dans des revues majeures sur l'évaluation et le choix (Rangel et al., 2008; Wallis, 2007).
History
Les premières expériences d'auto-stimulation électrique dans les années 1950 ont identifié des régions cérébrales dont l'activation était recherchée par les animaux, établissant ainsi l'idée d'un système de récompense. Au cours des années 1980 et 1990, les enregistrements des neurones dopaminergiques du mésencéphale par Schultz et ses collègues, interprétés à l'aide de la théorie de l'apprentissage par renforcement développée par Sutton et Barto et appliquée par Montague et Dayan, ont redéfini la dopamine comme un signal d'erreur de prédiction plutôt qu'un signal de plaisir. L'émergence ultérieure de la neuroéconomie a intégré les théories économiques de la valeur aux neurosciences pour étudier comment le cerveau calcule et compare la valeur lors des choix.
Debates
- Que code exactement la dopamine ?
- L'explication de l'erreur de prédiction est influente, mais le débat se poursuit pour savoir si les signaux dopaminergiques phasiques encodent strictement une erreur de prédiction de récompense ou s'ils transmettent également la saillance, la nouveauté ou la vigueur motivationnelle, et comment les signaux toniques et phasiques diffèrent dans leur fonction.
Key figures
- Wolfram Schultz
- Peter Dayan
- P. Read Montague
- Antonio Rangel
- Michael Frank
Related topics
Seminal works
- schultz-1997
- rangel-2008
- wallis-2007
Frequently asked questions
- Qu'est-ce qu'une erreur de prédiction de récompense ?
- C'est la différence entre la récompense qu'un résultat procure et la récompense qui était attendue. Les neurones dopaminergiques du mésencéphale signalent cette différence, s'activant davantage pour les résultats meilleurs que prévu et moins pour ceux moins bons que prévu, ce qui fournit un signal d'apprentissage qui met à jour les attentes futures.
- La dopamine est-elle la 'substance chimique du plaisir' du cerveau ?
- Cette description populaire est trompeuse. De nombreuses preuves indiquent que les signaux dopaminergiques phasiques sont principalement liés à l'apprentissage et à la prédiction de la récompense plutôt qu'à l'expérience du plaisir elle-même, qui semble impliquer d'autres systèmes.