O que é um erro de previsão da recompensa?

É a diferença entre a recompensa que um resultado proporciona e a recompensa que era esperada. Os neurónios dopaminérgicos do mesencéfalo sinalizam esta diferença, disparando mais para resultados melhores do que o esperado e menos para resultados piores do que o esperado, o que fornece um sinal de aprendizagem que atualiza as expectativas futuras.

A dopamina é a 'substância química do prazer' do cérebro?

Essa descrição popular é enganosa. Muitas evidências indicam que os sinais fásicos de dopamina se relacionam principalmente com a aprendizagem e a previsão da recompensa, e não com a experiência do prazer em si, que parece envolver outros sistemas.

Recompensa e Tomada de Decisão

O processamento da recompensa e a tomada de decisão baseada em valor dizem respeito a como o cérebro representa o valor dos resultados, aprende com as consequências das ações e escolhe entre opções. Os neurónios dopaminérgicos do mesencéfalo sinalizam discrepâncias entre a recompensa esperada e a recebida, e uma rede que inclui o estriado, o córtex orbitofrontal e o pré-frontal ventromedial calcula e compara o valor das escolhas para guiar o comportamento.

Encontrar tema com PaperMindEm breveFind papers & topics

Tools & resources

Baixar slides

Learn & explore

VídeoEm breve

Definition

Recompensa e tomada de decisão é o estudo de como o cérebro atribui valor aos resultados, atualiza as expectativas através da aprendizagem a partir de erros de previsão e usa estas representações de valor para selecionar entre ações concorrentes.

Scope

Este tópico aborda a neurociência da recompensa e da tomada de decisão baseada em valor como material de referência em neurociência cognitiva. Apresenta a sinalização do erro de previsão da recompensa, os sistemas de avaliação do cérebro, os quadros de aprendizagem por reforço e a relevância destes circuitos para a motivação e para as perturbações da recompensa. Explica mecanismos e evidências e não é uma orientação clínica.

Core questions

Como o cérebro representa o valor de diferentes resultados e opções?
Como os sinais de dopamina e os mecanismos de aprendizagem por reforço permitem que o cérebro aprenda com a recompensa e a punição?
Quais regiões calculam, comparam e agem com base no valor durante a tomada de decisão?

Key concepts

Erro de previsão da recompensa
Sinalização fásica de dopamina
Aprendizagem por reforço e aprendizagem por diferença temporal
Valor subjetivo e esperado
Avaliação orbitofrontal e pré-frontal ventromedial
Estriado e valor da ação
Exploração versus exploração
Perturbações relacionadas com a recompensa

Key theories

Hipótese do erro de previsão da recompensa da dopamina: A atividade fásica dos neurónios dopaminérgicos do mesencéfalo codifica um erro de previsão da recompensa, a diferença entre a recompensa recebida e a esperada, fornecendo um sinal de ensino do tipo usado na aprendizagem por reforço de diferença temporal para atualizar as estimativas de valor.
Estrutura da tomada de decisão baseada em valor: A escolha é decomposta em etapas: representação de opções, avaliação, seleção de ação, avaliação de resultados e aprendizagem, permitindo que sistemas neurais distintos sejam mapeados para cada etapa computacional, em vez de tratar a decisão como um processo único.

Mechanisms

Um mecanismo central é o erro de previsão da recompensa: os neurónios dopaminérgicos do mesencéfalo aumentam a sua taxa de disparo quando um resultado é melhor do que o esperado e diminuem-na quando é pior, um padrão que corresponde ao sinal de ensino da aprendizagem por reforço de diferença temporal (Schultz et al., 1997). Pensa-se que estes sinais atualizam as representações de valor em regiões-alvo, particularmente no estriado, onde a atividade neuronal reflete o valor das ações disponíveis (Samejima et al., 2005). O córtex orbitofrontal e o pré-frontal ventromedial representam o valor de bens e opções numa escala comum que permite a comparação entre escolhas (Wallis, 2007). A tomada de decisão pode ser analisada como uma sequência de etapas computacionais, representação, avaliação, seleção e aprendizagem, cada uma suportada por circuitos parcialmente distintos (Rangel et al., 2008).

Clinical relevance

Os circuitos de recompensa e avaliação estão implicados na forma como investigadores e clínicos compreendem a motivação e uma série de condições, incluindo a adição, a depressão e os efeitos de doenças e tratamentos dopaminérgicos, como demonstrado pela alteração da aprendizagem por reforço na doença de Parkinson (Frank et al., 2004). Esta entrada é uma referência educacional aos mecanismos de recompensa e decisão e não é uma base para diagnosticar ou tratar qualquer indivíduo.

Evidence & guidelines

A explicação baseia-se em evidências convergentes de registos de unidades únicas em animais, neuroimagem humana, modelagem computacional e estudos de pacientes com distúrbios dopaminérgicos (Schultz et al., 1997; Samejima et al., 2005; Frank et al., 2004), sintetizadas em grandes revisões de avaliação e escolha (Rangel et al., 2008; Wallis, 2007).

History

Experiências iniciais de autoestimulação elétrica na década de 1950 identificaram regiões cerebrais cuja ativação os animais trabalhavam para obter, estabelecendo a ideia de um sistema de recompensa. Ao longo das décadas de 1980 e 1990, os registos de neurónios dopaminérgicos do mesencéfalo por Schultz e colegas, interpretados com a teoria da aprendizagem por reforço desenvolvida por Sutton e Barto e aplicada por Montague e Dayan, reformularam a dopamina como um sinal de erro de previsão em vez de um sinal de prazer. A subsequente emergência da neuroeconomia integrou teorias económicas de valor com a neurociência para estudar como o cérebro calcula e compara o valor durante a escolha.

Debates

O que exatamente a dopamina codifica?: A explicação do erro de previsão é influente, mas o debate continua sobre se os sinais fásicos de dopamina sinalizam estritamente um erro de previsão da recompensa ou também transmitem saliência, novidade ou vigor motivacional, e como os sinais tónicos e fásicos diferem na função.

Key figures

Wolfram Schultz
Peter Dayan
P. Read Montague
Antonio Rangel
Michael Frank

Seminal works

schultz-1997
rangel-2008
wallis-2007

Frequently asked questions

O que é um erro de previsão da recompensa?: É a diferença entre a recompensa que um resultado proporciona e a recompensa que era esperada. Os neurónios dopaminérgicos do mesencéfalo sinalizam esta diferença, disparando mais para resultados melhores do que o esperado e menos para resultados piores do que o esperado, o que fornece um sinal de aprendizagem que atualiza as expectativas futuras.
A dopamina é a 'substância química do prazer' do cérebro?: Essa descrição popular é enganosa. Muitas evidências indicam que os sinais fásicos de dopamina se relacionam principalmente com a aprendizagem e a previsão da recompensa, e não com a experiência do prazer em si, que parece envolver outros sistemas.