Что такое ошибка предсказания вознаграждения?

Это разница между вознаграждением, которое приносит результат, и ожидаемым вознаграждением. Дофаминовые нейроны среднего мозга сигнализируют об этой разнице, увеличивая частоту разрядов при лучших, чем ожидалось, результатах и уменьшая ее при худших, чем ожидалось, что обеспечивает обучающий сигнал, обновляющий будущие ожидания.

Является ли дофамин «химическим веществом удовольствия» мозга?

Это популярное описание вводит в заблуждение. Многие данные показывают, что фазовые дофаминовые сигналы в основном связаны с обучением и предсказанием вознаграждения, а не с самим переживанием удовольствия, которое, по-видимому, включает другие системы.

Вознаграждение и принятие решений

Обработка вознаграждения и принятие решений, основанных на ценности, касаются того, как мозг представляет ценность результатов, учится на последствиях действий и выбирает между вариантами. Дофаминовые нейроны среднего мозга сигнализируют о расхождениях между ожидаемым и полученным вознаграждением, а сеть, включающая стриатум, орбитофронтальную и вентромедиальную префронтальную кору, вычисляет и сравнивает ценность выбора для управления поведением.

Найти тему в PaperMindСкороFind papers & topics

Tools & resources

Скачать слайды

Learn & explore

ВидеоСкоро

Definition

Вознаграждение и принятие решений — это исследование того, как мозг присваивает ценность результатам, обновляет ожидания посредством обучения на основе ошибок предсказания и использует эти представления ценности для выбора между конкурирующими действиями.

Scope

Эта тема охватывает нейробиологию вознаграждения и принятия решений, основанных на ценности, в качестве справочного материала по когнитивной нейробиологии. В ней представлены сигнализация ошибки предсказания вознаграждения, системы оценки в мозге, концепции обучения с подкреплением и актуальность этих цепей для мотивации и расстройств, связанных с вознаграждением. Она объясняет механизмы и доказательства и не является клиническим руководством.

Core questions

Как мозг представляет ценность различных результатов и вариантов?
Как дофаминовые сигналы и механизмы обучения с подкреплением позволяют мозгу учиться на основе вознаграждения и наказания?
Какие области вычисляют, сравнивают и действуют на основе ценности при принятии решений?

Key concepts

Ошибка предсказания вознаграждения
Фазовая дофаминергическая сигнализация
Обучение с подкреплением и обучение на основе временных различий
Субъективная и ожидаемая ценность
Орбитофронтальная и вентромедиальная префронтальная оценка
Стриатум и ценность действия
Исследование против эксплуатации
Расстройства, связанные с вознаграждением

Key theories

Гипотеза ошибки предсказания вознаграждения дофамина: Фазовая активность дофаминовых нейронов среднего мозга кодирует ошибку предсказания вознаграждения — разницу между полученным и ожидаемым вознаграждением, обеспечивая обучающий сигнал, используемый в обучении с подкреплением на основе временных различий для обновления оценок ценности.
Концепция принятия решений, основанных на ценности: Выбор декомпозируется на этапы: представление вариантов, оценка, выбор действия, оценка результата и обучение, что позволяет сопоставить различные нейронные системы с каждым вычислительным шагом, а не рассматривать решение как единый процесс.

Mechanisms

Центральным механизмом является ошибка предсказания вознаграждения: дофаминовые нейроны среднего мозга увеличивают частоту разрядов, когда результат лучше ожидаемого, и уменьшают ее, когда он хуже, что соответствует обучающему сигналу обучения с подкреплением на основе временных различий (Schultz et al., 1997). Считается, что эти сигналы обновляют представления ценности в целевых областях, особенно в стриатуме, где нейронная активность отражает ценность доступных действий (Samejima et al., 2005). Орбитофронтальная и вентромедиальная префронтальная кора представляют ценность товаров и вариантов по общей шкале, что позволяет сравнивать их при выборе (Wallis, 2007). Принятие решений может быть проанализировано как последовательность вычислительных этапов: представление, оценка, выбор и обучение, каждый из которых поддерживается частично различными цепями (Rangel et al., 2008).

Clinical relevance

Цепи вознаграждения и оценки задействованы в том, как исследователи и клиницисты понимают мотивацию и ряд состояний, включая зависимость, депрессию, а также последствия дофаминергических заболеваний и лечения, что демонстрируется измененным обучением с подкреплением при болезни Паркинсона (Frank et al., 2004). Эта статья является образовательным справочником по механизмам вознаграждения и принятия решений и не является основанием для диагностики или лечения какого-либо человека.

Evidence & guidelines

Описание основано на конвергентных доказательствах, полученных в результате регистрации активности отдельных нейронов у животных, нейровизуализации у человека, вычислительного моделирования и исследований пациентов с дофаминергическими расстройствами (Schultz et al., 1997; Samejima et al., 2005; Frank et al., 2004), обобщенных в крупных обзорах по оценке и выбору (Rangel et al., 2008; Wallis, 2007).

History

Ранние эксперименты по электрической самостимуляции в 1950-х годах выявили области мозга, активацию которых животные стремились получить, что заложило идею системы вознаграждения. В 1980-х и 1990-х годах записи активности дофаминовых нейронов среднего мозга Шульцем и его коллегами, интерпретированные с помощью теории обучения с подкреплением, разработанной Саттоном и Барто и примененной Монтегю и Дайаном, переосмыслили дофамин как сигнал ошибки предсказания, а не сигнал удовольствия. Последующее появление нейроэкономики объединило экономические теории ценности с нейробиологией для изучения того, как мозг вычисляет и сравнивает ценность при выборе.

Debates

Что именно кодирует дофамин?: Гипотеза ошибки предсказания является влиятельной, но продолжаются дебаты о том, сигнализирует ли фазовый дофамин строго ошибку предсказания вознаграждения или также передает значимость, новизну или мотивационную энергию, и как тонические и фазовые сигналы различаются по функции.

Key figures

Wolfram Schultz
Peter Dayan
P. Read Montague
Antonio Rangel
Michael Frank

Seminal works

schultz-1997
rangel-2008
wallis-2007

Frequently asked questions

Что такое ошибка предсказания вознаграждения?: Это разница между вознаграждением, которое приносит результат, и ожидаемым вознаграждением. Дофаминовые нейроны среднего мозга сигнализируют об этой разнице, увеличивая частоту разрядов при лучших, чем ожидалось, результатах и уменьшая ее при худших, чем ожидалось, что обеспечивает обучающий сигнал, обновляющий будущие ожидания.
Является ли дофамин «химическим веществом удовольствия» мозга?: Это популярное описание вводит в заблуждение. Многие данные показывают, что фазовые дофаминовые сигналы в основном связаны с обучением и предсказанием вознаграждения, а не с самим переживанием удовольствия, которое, по-видимому, включает другие системы.