ScholarGate
Ассистент

Вознаграждение и принятие решений

Обработка вознаграждения и принятие решений, основанных на ценности, касаются того, как мозг представляет ценность результатов, учится на последствиях действий и выбирает между вариантами. Дофаминовые нейроны среднего мозга сигнализируют о расхождениях между ожидаемым и полученным вознаграждением, а сеть, включающая стриатум, орбитофронтальную и вентромедиальную префронтальную кору, вычисляет и сравнивает ценность выбора для управления поведением.

Найти тему в PaperMindСкороFind papers & topics
Tools & resources
Скачать слайды
Learn & explore
ВидеоСкоро

Definition

Вознаграждение и принятие решений — это исследование того, как мозг присваивает ценность результатам, обновляет ожидания посредством обучения на основе ошибок предсказания и использует эти представления ценности для выбора между конкурирующими действиями.

Scope

Эта тема охватывает нейробиологию вознаграждения и принятия решений, основанных на ценности, в качестве справочного материала по когнитивной нейробиологии. В ней представлены сигнализация ошибки предсказания вознаграждения, системы оценки в мозге, концепции обучения с подкреплением и актуальность этих цепей для мотивации и расстройств, связанных с вознаграждением. Она объясняет механизмы и доказательства и не является клиническим руководством.

Core questions

  • Как мозг представляет ценность различных результатов и вариантов?
  • Как дофаминовые сигналы и механизмы обучения с подкреплением позволяют мозгу учиться на основе вознаграждения и наказания?
  • Какие области вычисляют, сравнивают и действуют на основе ценности при принятии решений?

Key concepts

  • Ошибка предсказания вознаграждения
  • Фазовая дофаминергическая сигнализация
  • Обучение с подкреплением и обучение на основе временных различий
  • Субъективная и ожидаемая ценность
  • Орбитофронтальная и вентромедиальная префронтальная оценка
  • Стриатум и ценность действия
  • Исследование против эксплуатации
  • Расстройства, связанные с вознаграждением

Key theories

Гипотеза ошибки предсказания вознаграждения дофамина
Фазовая активность дофаминовых нейронов среднего мозга кодирует ошибку предсказания вознаграждения — разницу между полученным и ожидаемым вознаграждением, обеспечивая обучающий сигнал, используемый в обучении с подкреплением на основе временных различий для обновления оценок ценности.
Концепция принятия решений, основанных на ценности
Выбор декомпозируется на этапы: представление вариантов, оценка, выбор действия, оценка результата и обучение, что позволяет сопоставить различные нейронные системы с каждым вычислительным шагом, а не рассматривать решение как единый процесс.

Mechanisms

Центральным механизмом является ошибка предсказания вознаграждения: дофаминовые нейроны среднего мозга увеличивают частоту разрядов, когда результат лучше ожидаемого, и уменьшают ее, когда он хуже, что соответствует обучающему сигналу обучения с подкреплением на основе временных различий (Schultz et al., 1997). Считается, что эти сигналы обновляют представления ценности в целевых областях, особенно в стриатуме, где нейронная активность отражает ценность доступных действий (Samejima et al., 2005). Орбитофронтальная и вентромедиальная префронтальная кора представляют ценность товаров и вариантов по общей шкале, что позволяет сравнивать их при выборе (Wallis, 2007). Принятие решений может быть проанализировано как последовательность вычислительных этапов: представление, оценка, выбор и обучение, каждый из которых поддерживается частично различными цепями (Rangel et al., 2008).

Clinical relevance

Цепи вознаграждения и оценки задействованы в том, как исследователи и клиницисты понимают мотивацию и ряд состояний, включая зависимость, депрессию, а также последствия дофаминергических заболеваний и лечения, что демонстрируется измененным обучением с подкреплением при болезни Паркинсона (Frank et al., 2004). Эта статья является образовательным справочником по механизмам вознаграждения и принятия решений и не является основанием для диагностики или лечения какого-либо человека.

Evidence & guidelines

Описание основано на конвергентных доказательствах, полученных в результате регистрации активности отдельных нейронов у животных, нейровизуализации у человека, вычислительного моделирования и исследований пациентов с дофаминергическими расстройствами (Schultz et al., 1997; Samejima et al., 2005; Frank et al., 2004), обобщенных в крупных обзорах по оценке и выбору (Rangel et al., 2008; Wallis, 2007).

History

Ранние эксперименты по электрической самостимуляции в 1950-х годах выявили области мозга, активацию которых животные стремились получить, что заложило идею системы вознаграждения. В 1980-х и 1990-х годах записи активности дофаминовых нейронов среднего мозга Шульцем и его коллегами, интерпретированные с помощью теории обучения с подкреплением, разработанной Саттоном и Барто и примененной Монтегю и Дайаном, переосмыслили дофамин как сигнал ошибки предсказания, а не сигнал удовольствия. Последующее появление нейроэкономики объединило экономические теории ценности с нейробиологией для изучения того, как мозг вычисляет и сравнивает ценность при выборе.

Debates

Что именно кодирует дофамин?
Гипотеза ошибки предсказания является влиятельной, но продолжаются дебаты о том, сигнализирует ли фазовый дофамин строго ошибку предсказания вознаграждения или также передает значимость, новизну или мотивационную энергию, и как тонические и фазовые сигналы различаются по функции.

Key figures

  • Wolfram Schultz
  • Peter Dayan
  • P. Read Montague
  • Antonio Rangel
  • Michael Frank

Related topics

Seminal works

  • schultz-1997
  • rangel-2008
  • wallis-2007

Frequently asked questions

Что такое ошибка предсказания вознаграждения?
Это разница между вознаграждением, которое приносит результат, и ожидаемым вознаграждением. Дофаминовые нейроны среднего мозга сигнализируют об этой разнице, увеличивая частоту разрядов при лучших, чем ожидалось, результатах и уменьшая ее при худших, чем ожидалось, что обеспечивает обучающий сигнал, обновляющий будущие ожидания.
Является ли дофамин «химическим веществом удовольствия» мозга?
Это популярное описание вводит в заблуждение. Многие данные показывают, что фазовые дофаминовые сигналы в основном связаны с обучением и предсказанием вознаграждения, а не с самим переживанием удовольствия, которое, по-видимому, включает другие системы.

Methods for this concept

Related concepts