報酬予測誤差とは何ですか？

それは、ある結果がもたらす報酬と、期待されていた報酬との差です。中脳ドーパミンニューロンはこの差を信号として伝え、期待よりも良い結果に対してはより多く発火し、悪い結果に対してはより少なく発火します。これは、将来の期待を更新する学習信号となります。

ドーパミンは脳の「快楽物質」ですか？

この一般的な説明は誤解を招く可能性があります。多くの証拠は、相性ドーパミン信号が主に学習と報酬の予測に関連しており、快楽そのものの経験とは異なるシステムが関与していることを示唆しています。

報酬と意思決定

報酬処理と価値に基づく意思決定は、脳が結果の価値をどのように表現し、行動の結果から学習し、選択肢の中からどのように選ぶかに関わるものです。中脳ドーパミンニューロンは、期待される報酬と実際に受け取った報酬との間の不一致を信号として伝え、線条体、眼窩前頭皮質、腹内側前頭前野を含むネットワークが、行動を導くために選択肢の価値を計算し比較します。

PaperMindでテーマを探す近日公開Find papers & topics

Tools & resources

スライドをダウンロード

Learn & explore

動画近日公開

Definition

報酬と意思決定とは、脳が結果にどのように価値を割り当て、予測誤差からの学習を通じて期待を更新し、これらの価値表現を用いて競合する行動の中から選択するかを研究する分野です。

Scope

このトピックは、認知神経科学における参考資料として、報酬と価値に基づく意思決定の神経科学を扱います。報酬予測誤差シグナル伝達、脳の価値評価システム、強化学習の枠組み、およびこれらの回路が動機付けや報酬関連障害にどのように関連するかを紹介します。これはメカニズムと証拠を説明するものであり、臨床的なガイダンスではありません。

Core questions

脳は異なる結果や選択肢の価値をどのように表現するのか？
ドーパミン信号と強化学習メカニズムは、脳が報酬と罰から学習することをどのように可能にするのか？
意思決定において、どの領域が価値を計算し、比較し、それに基づいて行動するのか？

Key concepts

報酬予測誤差
相性ドーパミンシグナル伝達
強化学習と時間差学習
主観的価値と期待価値
眼窩前頭皮質と腹内側前頭前野による価値評価
線条体と行動価値
探索と利用
報酬関連障害

Key theories

ドーパミンの報酬予測誤差仮説: 中脳ドーパミンニューロンの相性活動は、受け取った報酬と期待された報酬の差である報酬予測誤差を符号化し、価値推定を更新するために時間差強化学習で用いられる種類のティーチングシグナルを提供します。
価値に基づく意思決定の枠組み: 選択は、選択肢の表現、価値評価、行動選択、結果評価、学習という段階に分解され、意思決定を単一のプロセスとして扱うのではなく、各計算ステップに異なる神経システムをマッピングすることを可能にします。

Mechanisms

中心的なメカニズムは報酬予測誤差です。中脳ドーパミンニューロンは、結果が期待よりも良い場合に発火を増加させ、悪い場合に発火を減少させます。このパターンは、時間差強化学習のティーチングシグナルと一致します（Schultz et al., 1997）。これらのシグナルは、特に線条体などの標的領域における価値表現を更新すると考えられており、線条体ではニューロン活動が利用可能な行動の価値を反映します（Samejima et al., 2005）。眼窩前頭皮質と腹内側前頭前野は、選択肢間の比較を可能にする共通の尺度で物品や選択肢の価値を表現します（Wallis, 2007）。意思決定は、表現、評価、選択、学習という計算段階のシーケンスとして分析でき、それぞれが部分的に異なる回路によって支えられています（Rangel et al., 2008）。

Clinical relevance

報酬と価値評価の回路は、研究者や臨床医が動機付けや、依存症、うつ病、パーキンソン病における強化学習の変化（Frank et al., 2004）に示されるようなドーパミン作動性疾患とその治療の影響を含む様々な状態をどのように理解するかに深く関与しています。この項目は、報酬と意思決定のメカニズムに関する教育的な参考資料であり、個人の診断や治療の根拠となるものではありません。

Evidence & guidelines

この説明は、動物における単一ユニット記録、ヒトの神経画像研究、計算モデリング、ドーパミン作動性障害患者の研究からの収束的証拠（Schultz et al., 1997; Samejima et al., 2005; Frank et al., 2004）に基づいており、価値評価と選択に関する主要なレビュー（Rangel et al., 2008; Wallis, 2007）で統合されています。

History

1950年代の初期の電気自己刺激実験により、動物が獲得するために努力する脳領域が特定され、報酬システムの概念が確立されました。1980年代から1990年代にかけて、Schultzらが中脳ドーパミンニューロンの記録を行い、SuttonとBartoによって開発され、MontagueとDayanによって適用された強化学習理論と組み合わせて解釈された結果、ドーパミンは快楽信号ではなく予測誤差信号として再定義されました。その後の神経経済学の出現により、価値の経済理論と神経科学が統合され、脳が選択時に価値をどのように計算し比較するかが研究されるようになりました。

Debates

ドーパミンは正確には何を符号化しているのか？: 予測誤差の解釈は影響力がありますが、相性ドーパミン信号が厳密に報酬予測誤差を伝達するのか、あるいは顕著性、新規性、動機付けの活力を伝えるのか、また、トーニック信号と相性信号の機能がどのように異なるのかについては議論が続いています。

Key figures

Wolfram Schultz
Peter Dayan
P. Read Montague
Antonio Rangel
Michael Frank

Seminal works

schultz-1997
rangel-2008
wallis-2007

Frequently asked questions

報酬予測誤差とは何ですか？: それは、ある結果がもたらす報酬と、期待されていた報酬との差です。中脳ドーパミンニューロンはこの差を信号として伝え、期待よりも良い結果に対してはより多く発火し、悪い結果に対してはより少なく発火します。これは、将来の期待を更新する学習信号となります。
ドーパミンは脳の「快楽物質」ですか？: この一般的な説明は誤解を招く可能性があります。多くの証拠は、相性ドーパミン信号が主に学習と報酬の予測に関連しており、快楽そのものの経験とは異なるシステムが関与していることを示唆しています。