ScholarGate
Assistente

Recompensa e Tomada de Decisão

O processamento da recompensa e a tomada de decisão baseada em valor dizem respeito a como o cérebro representa o valor dos resultados, aprende com as consequências das ações e escolhe entre opções. Os neurónios dopaminérgicos do mesencéfalo sinalizam discrepâncias entre a recompensa esperada e a recebida, e uma rede que inclui o estriado, o córtex orbitofrontal e o pré-frontal ventromedial calcula e compara o valor das escolhas para guiar o comportamento.

Encontrar tema com PaperMindEm breveFind papers & topics
Tools & resources
Baixar slides
Learn & explore
VídeoEm breve

Definition

Recompensa e tomada de decisão é o estudo de como o cérebro atribui valor aos resultados, atualiza as expectativas através da aprendizagem a partir de erros de previsão e usa estas representações de valor para selecionar entre ações concorrentes.

Scope

Este tópico aborda a neurociência da recompensa e da tomada de decisão baseada em valor como material de referência em neurociência cognitiva. Apresenta a sinalização do erro de previsão da recompensa, os sistemas de avaliação do cérebro, os quadros de aprendizagem por reforço e a relevância destes circuitos para a motivação e para as perturbações da recompensa. Explica mecanismos e evidências e não é uma orientação clínica.

Core questions

  • Como o cérebro representa o valor de diferentes resultados e opções?
  • Como os sinais de dopamina e os mecanismos de aprendizagem por reforço permitem que o cérebro aprenda com a recompensa e a punição?
  • Quais regiões calculam, comparam e agem com base no valor durante a tomada de decisão?

Key concepts

  • Erro de previsão da recompensa
  • Sinalização fásica de dopamina
  • Aprendizagem por reforço e aprendizagem por diferença temporal
  • Valor subjetivo e esperado
  • Avaliação orbitofrontal e pré-frontal ventromedial
  • Estriado e valor da ação
  • Exploração versus exploração
  • Perturbações relacionadas com a recompensa

Key theories

Hipótese do erro de previsão da recompensa da dopamina
A atividade fásica dos neurónios dopaminérgicos do mesencéfalo codifica um erro de previsão da recompensa, a diferença entre a recompensa recebida e a esperada, fornecendo um sinal de ensino do tipo usado na aprendizagem por reforço de diferença temporal para atualizar as estimativas de valor.
Estrutura da tomada de decisão baseada em valor
A escolha é decomposta em etapas: representação de opções, avaliação, seleção de ação, avaliação de resultados e aprendizagem, permitindo que sistemas neurais distintos sejam mapeados para cada etapa computacional, em vez de tratar a decisão como um processo único.

Mechanisms

Um mecanismo central é o erro de previsão da recompensa: os neurónios dopaminérgicos do mesencéfalo aumentam a sua taxa de disparo quando um resultado é melhor do que o esperado e diminuem-na quando é pior, um padrão que corresponde ao sinal de ensino da aprendizagem por reforço de diferença temporal (Schultz et al., 1997). Pensa-se que estes sinais atualizam as representações de valor em regiões-alvo, particularmente no estriado, onde a atividade neuronal reflete o valor das ações disponíveis (Samejima et al., 2005). O córtex orbitofrontal e o pré-frontal ventromedial representam o valor de bens e opções numa escala comum que permite a comparação entre escolhas (Wallis, 2007). A tomada de decisão pode ser analisada como uma sequência de etapas computacionais, representação, avaliação, seleção e aprendizagem, cada uma suportada por circuitos parcialmente distintos (Rangel et al., 2008).

Clinical relevance

Os circuitos de recompensa e avaliação estão implicados na forma como investigadores e clínicos compreendem a motivação e uma série de condições, incluindo a adição, a depressão e os efeitos de doenças e tratamentos dopaminérgicos, como demonstrado pela alteração da aprendizagem por reforço na doença de Parkinson (Frank et al., 2004). Esta entrada é uma referência educacional aos mecanismos de recompensa e decisão e não é uma base para diagnosticar ou tratar qualquer indivíduo.

Evidence & guidelines

A explicação baseia-se em evidências convergentes de registos de unidades únicas em animais, neuroimagem humana, modelagem computacional e estudos de pacientes com distúrbios dopaminérgicos (Schultz et al., 1997; Samejima et al., 2005; Frank et al., 2004), sintetizadas em grandes revisões de avaliação e escolha (Rangel et al., 2008; Wallis, 2007).

History

Experiências iniciais de autoestimulação elétrica na década de 1950 identificaram regiões cerebrais cuja ativação os animais trabalhavam para obter, estabelecendo a ideia de um sistema de recompensa. Ao longo das décadas de 1980 e 1990, os registos de neurónios dopaminérgicos do mesencéfalo por Schultz e colegas, interpretados com a teoria da aprendizagem por reforço desenvolvida por Sutton e Barto e aplicada por Montague e Dayan, reformularam a dopamina como um sinal de erro de previsão em vez de um sinal de prazer. A subsequente emergência da neuroeconomia integrou teorias económicas de valor com a neurociência para estudar como o cérebro calcula e compara o valor durante a escolha.

Debates

O que exatamente a dopamina codifica?
A explicação do erro de previsão é influente, mas o debate continua sobre se os sinais fásicos de dopamina sinalizam estritamente um erro de previsão da recompensa ou também transmitem saliência, novidade ou vigor motivacional, e como os sinais tónicos e fásicos diferem na função.

Key figures

  • Wolfram Schultz
  • Peter Dayan
  • P. Read Montague
  • Antonio Rangel
  • Michael Frank

Related topics

Seminal works

  • schultz-1997
  • rangel-2008
  • wallis-2007

Frequently asked questions

O que é um erro de previsão da recompensa?
É a diferença entre a recompensa que um resultado proporciona e a recompensa que era esperada. Os neurónios dopaminérgicos do mesencéfalo sinalizam esta diferença, disparando mais para resultados melhores do que o esperado e menos para resultados piores do que o esperado, o que fornece um sinal de aprendizagem que atualiza as expectativas futuras.
A dopamina é a 'substância química do prazer' do cérebro?
Essa descrição popular é enganosa. Muitas evidências indicam que os sinais fásicos de dopamina se relacionam principalmente com a aprendizagem e a previsão da recompensa, e não com a experiência do prazer em si, que parece envolver outros sistemas.

Methods for this concept

Related concepts