¿Qué es un error de predicción de recompensa?

Es la diferencia entre la recompensa que un resultado proporciona y la recompensa que se esperaba. Las neuronas dopaminérgicas del mesencéfalo señalan esta diferencia, descargando más para resultados mejores de lo esperado y menos para los peores de lo esperado, lo que proporciona una señal de aprendizaje que actualiza las expectativas futuras.

¿Es la dopamina la 'sustancia química del placer' del cerebro?

Esa descripción popular es engañosa. Mucha evidencia indica que las señales fásicas de dopamina se relacionan principalmente con el aprendizaje y la predicción de la recompensa, más que con la experiencia del placer en sí, que parece involucrar otros sistemas.

Recompensa y Toma de Decisiones

El procesamiento de la recompensa y la toma de decisiones basada en el valor se refieren a cómo el cerebro representa el valor de los resultados, aprende de las consecuencias de las acciones y elige entre opciones. Las neuronas dopaminérgicas del mesencéfalo señalan las discrepancias entre la recompensa esperada y la recibida, y una red que incluye el estriado, la corteza orbitofrontal y la corteza prefrontal ventromedial calcula y compara el valor de las elecciones para guiar el comportamiento.

Encontrar tema con PaperMindPróximamenteFind papers & topics

Tools & resources

Descargar diapositivas

Learn & explore

VídeoPróximamente

Definition

La recompensa y la toma de decisiones es el estudio de cómo el cerebro asigna valor a los resultados, actualiza las expectativas aprendiendo de los errores de predicción y utiliza estas representaciones de valor para seleccionar entre acciones competitivas.

Scope

Este tema cubre la neurociencia de la recompensa y la toma de decisiones basada en el valor como material de referencia en neurociencia cognitiva. Introduce la señalización del error de predicción de recompensa, los sistemas de valoración del cerebro, los marcos de aprendizaje por refuerzo y la relevancia de estos circuitos para la motivación y los trastornos de la recompensa. Explica mecanismos y evidencia y no es una guía clínica.

Core questions

¿Cómo representa el cerebro el valor de los diferentes resultados y opciones?
¿Cómo permiten las señales de dopamina y los mecanismos de aprendizaje por refuerzo que el cerebro aprenda de la recompensa y el castigo?
¿Qué regiones calculan, comparan y actúan sobre el valor durante la toma de decisiones?

Key concepts

Error de predicción de recompensa
Señalización fásica de dopamina
Aprendizaje por refuerzo y aprendizaje por diferencia temporal
Valor subjetivo y esperado
Valoración orbitofrontal y prefrontal ventromedial
Estriado y valor de la acción
Exploración versus explotación
Trastornos relacionados con la recompensa

Key theories

Hipótesis del error de predicción de recompensa de la dopamina: La actividad fásica de las neuronas dopaminérgicas del mesencéfalo codifica un error de predicción de recompensa, la diferencia entre la recompensa recibida y la esperada, proporcionando una señal de enseñanza del tipo utilizado en el aprendizaje por refuerzo de diferencia temporal para actualizar las estimaciones de valor.
Marco de toma de decisiones basado en el valor: La elección se descompone en etapas: representación de opciones, valoración, selección de acciones, evaluación de resultados y aprendizaje, lo que permite mapear sistemas neuronales distintos en cada paso computacional en lugar de tratar la decisión como un proceso único.

Mechanisms

Un mecanismo central es el error de predicción de recompensa: las neuronas dopaminérgicas del mesencéfalo aumentan su descarga cuando un resultado es mejor de lo esperado y la disminuyen cuando es peor, un patrón que coincide con la señal de enseñanza del aprendizaje por refuerzo de diferencia temporal (Schultz et al., 1997). Se cree que estas señales actualizan las representaciones de valor en las regiones objetivo, particularmente el estriado, donde la actividad neuronal refleja el valor de las acciones disponibles (Samejima et al., 2005). La corteza orbitofrontal y la corteza prefrontal ventromedial representan el valor de los bienes y las opciones en una escala común que permite la comparación entre elecciones (Wallis, 2007). La toma de decisiones se puede analizar como una secuencia de etapas computacionales, representación, valoración, selección y aprendizaje, cada una apoyada por circuitos parcialmente distintos (Rangel et al., 2008).

Clinical relevance

Los circuitos de recompensa y valoración están implicados en cómo los investigadores y clínicos comprenden la motivación y una variedad de condiciones, incluyendo la adicción, la depresión y los efectos de la enfermedad y el tratamiento dopaminérgicos, como lo demuestra la alteración del aprendizaje por refuerzo en la enfermedad de Parkinson (Frank et al., 2004). Esta entrada es una referencia educativa sobre los mecanismos de recompensa y decisión y no es una base para diagnosticar o tratar a ningún individuo.

Evidence & guidelines

La explicación se basa en evidencia convergente de registros de unidades individuales en animales, neuroimagen humana, modelado computacional y estudios de pacientes con trastornos dopaminérgicos (Schultz et al., 1997; Samejima et al., 2005; Frank et al., 2004), sintetizada en revisiones importantes sobre valoración y elección (Rangel et al., 2008; Wallis, 2007).

History

Los primeros experimentos de autoestimulación eléctrica en la década de 1950 identificaron regiones cerebrales cuya activación los animales se esforzarían por obtener, estableciendo la idea de un sistema de recompensa. A lo largo de las décadas de 1980 y 1990, los registros de neuronas dopaminérgicas del mesencéfalo realizados por Schultz y sus colegas, interpretados con la teoría del aprendizaje por refuerzo desarrollada por Sutton y Barto y aplicada por Montague y Dayan, reformularon la dopamina como una señal de error de predicción en lugar de una señal de placer. La posterior aparición de la neuroeconomía integró las teorías económicas del valor con la neurociencia para estudiar cómo el cerebro calcula y compara el valor durante la elección.

Debates

¿Qué codifica exactamente la dopamina?: La explicación del error de predicción es influyente, pero el debate continúa sobre si las señales fásicas de dopamina señalan estrictamente un error de predicción de recompensa o también transmiten saliencia, novedad o vigor motivacional, y cómo difieren en función las señales tónicas y fásicas.

Key figures

Wolfram Schultz
Peter Dayan
P. Read Montague
Antonio Rangel
Michael Frank

Seminal works

schultz-1997
rangel-2008
wallis-2007

Frequently asked questions

¿Qué es un error de predicción de recompensa?: Es la diferencia entre la recompensa que un resultado proporciona y la recompensa que se esperaba. Las neuronas dopaminérgicas del mesencéfalo señalan esta diferencia, descargando más para resultados mejores de lo esperado y menos para los peores de lo esperado, lo que proporciona una señal de aprendizaje que actualiza las expectativas futuras.
¿Es la dopamina la 'sustancia química del placer' del cerebro?: Esa descripción popular es engañosa. Mucha evidencia indica que las señales fásicas de dopamina se relacionan principalmente con el aprendizaje y la predicción de la recompensa, más que con la experiencia del placer en sí, que parece involucrar otros sistemas.