什么是奖赏预测误差？

它是指一个结果所带来的奖赏与预期奖赏之间的差异。中脑多巴胺神经元发出这种差异的信号，对于好于预期的结果放电更多，对于差于预期的结果放电更少，这提供了一个学习信号，用于更新未来的预期。

多巴胺是大脑的“快乐化学物质”吗？

这种流行的描述具有误导性。大量证据表明，相位性多巴胺信号主要与学习和奖赏预测有关，而非与愉悦体验本身有关，愉悦体验似乎涉及其他系统。

奖赏与决策

奖赏处理和基于价值的决策涉及大脑如何表征结果的价值、从行动后果中学习以及在选项中进行选择。中脑多巴胺神经元发出预期奖赏与实际获得奖赏之间差异的信号，一个包括纹状体、眶额叶和腹内侧前额叶皮层在内的网络计算并比较选择的价值以指导行为。

用 PaperMind 寻找选题即将推出Find papers & topics

Tools & resources

下载幻灯片

Learn & explore

视频即将推出

Definition

奖赏与决策是研究大脑如何为结果赋予价值、通过从预测误差中学习来更新预期，以及如何利用这些价值表征在相互竞争的行动中进行选择的学科。

Scope

本主题涵盖奖赏和基于价值的决策的神经科学，作为认知神经科学的参考材料。它介绍了奖赏预测误差信号、大脑的价值评估系统、强化学习框架，以及这些回路与动机和奖赏障碍的相关性。它解释了机制和证据，并非临床指导。

Core questions

大脑如何表征不同结果和选项的价值？
多巴胺信号和强化学习机制如何使大脑从奖赏和惩罚中学习？
在决策过程中，哪些区域计算、比较并作用于价值？

Key concepts

奖赏预测误差
相位性多巴胺信号
强化学习和时间差分学习
主观价值和预期价值
眶额叶和腹内侧前额叶的价值评估
纹状体和行动价值
探索与利用
奖赏相关障碍

Key theories

多巴胺的奖赏预测误差假说: 中脑多巴胺神经元的相位性活动编码奖赏预测误差，即实际获得奖赏与预期奖赏之间的差异，提供了时间差分强化学习中用于更新价值估计的教学信号。
基于价值的决策框架: 选择被分解为多个阶段：选项表征、价值评估、行动选择、结果评估和学习，从而可以将不同的神经系统映射到每个计算步骤，而不是将决策视为单一过程。

Mechanisms

一个核心机制是奖赏预测误差：当中脑多巴胺神经元在结果好于预期时增加放电，在结果差于预期时减少放电，这种模式与时间差分强化学习的教学信号相匹配（Schultz et al., 1997）。这些信号被认为可以更新目标区域的价值表征，特别是纹状体，那里的神经元活动反映了可用行动的价值（Samejima et al., 2005）。眶额叶和腹内侧前额叶皮层以共同的尺度表征商品和选项的价值，从而允许在不同选择之间进行比较（Wallis, 2007）。决策可以被分析为一系列计算阶段，包括表征、评估、选择和学习，每个阶段都由部分不同的回路支持（Rangel et al., 2008）。

Clinical relevance

奖赏和价值评估回路与研究人员和临床医生理解动机以及一系列疾病（包括成瘾、抑郁症以及多巴胺能疾病和治疗的影响）的方式有关，正如帕金森病中强化学习改变所显示的那样（Frank et al., 2004）。本条目是关于奖赏和决策机制的教育参考，并非诊断或治疗任何个体的依据。

Evidence & guidelines

该论述基于动物单细胞记录、人类神经影像学、计算建模以及多巴胺能障碍患者研究的综合证据（Schultz et al., 1997; Samejima et al., 2005; Frank et al., 2004），并综合了价值评估和选择方面的主要综述（Rangel et al., 2008; Wallis, 2007）。

History

20世纪50年代早期的电刺激自刺激实验确定了动物会努力获取激活的脑区，从而确立了奖赏系统的概念。在20世纪80年代和90年代，Schultz及其同事对中脑多巴胺神经元的记录，结合Sutton和Barto开发的并由Montague和Dayan应用到神经科学的强化学习理论，将多巴胺重新定义为预测误差信号而非愉悦信号。随后神经经济学的兴起将经济学价值理论与神经科学相结合，研究大脑在选择过程中如何计算和比较价值。

Debates

多巴胺究竟编码了什么？: 预测误差理论具有影响力，但关于相位性多巴胺信号是严格地表示奖赏预测误差，还是也传递显著性、新颖性或动机活力，以及强直性和相位性信号在功能上如何不同，仍存在争议。

Key figures

Wolfram Schultz
Peter Dayan
P. Read Montague
Antonio Rangel
Michael Frank

Seminal works

schultz-1997
rangel-2008
wallis-2007

Frequently asked questions

什么是奖赏预测误差？: 它是指一个结果所带来的奖赏与预期奖赏之间的差异。中脑多巴胺神经元发出这种差异的信号，对于好于预期的结果放电更多，对于差于预期的结果放电更少，这提供了一个学习信号，用于更新未来的预期。
多巴胺是大脑的“快乐化学物质”吗？: 这种流行的描述具有误导性。大量证据表明，相位性多巴胺信号主要与学习和奖赏预测有关，而非与愉悦体验本身有关，愉悦体验似乎涉及其他系统。