Вознаграждение и принятие решений
Обработка вознаграждения и принятие решений, основанных на ценности, касаются того, как мозг представляет ценность результатов, учится на последствиях действий и выбирает между вариантами. Дофаминовые нейроны среднего мозга сигнализируют о расхождениях между ожидаемым и полученным вознаграждением, а сеть, включающая стриатум, орбитофронтальную и вентромедиальную префронтальную кору, вычисляет и сравнивает ценность выбора для управления поведением.
Definition
Вознаграждение и принятие решений — это исследование того, как мозг присваивает ценность результатам, обновляет ожидания посредством обучения на основе ошибок предсказания и использует эти представления ценности для выбора между конкурирующими действиями.
Scope
Эта тема охватывает нейробиологию вознаграждения и принятия решений, основанных на ценности, в качестве справочного материала по когнитивной нейробиологии. В ней представлены сигнализация ошибки предсказания вознаграждения, системы оценки в мозге, концепции обучения с подкреплением и актуальность этих цепей для мотивации и расстройств, связанных с вознаграждением. Она объясняет механизмы и доказательства и не является клиническим руководством.
Core questions
- Как мозг представляет ценность различных результатов и вариантов?
- Как дофаминовые сигналы и механизмы обучения с подкреплением позволяют мозгу учиться на основе вознаграждения и наказания?
- Какие области вычисляют, сравнивают и действуют на основе ценности при принятии решений?
Key concepts
- Ошибка предсказания вознаграждения
- Фазовая дофаминергическая сигнализация
- Обучение с подкреплением и обучение на основе временных различий
- Субъективная и ожидаемая ценность
- Орбитофронтальная и вентромедиальная префронтальная оценка
- Стриатум и ценность действия
- Исследование против эксплуатации
- Расстройства, связанные с вознаграждением
Key theories
- Гипотеза ошибки предсказания вознаграждения дофамина
- Фазовая активность дофаминовых нейронов среднего мозга кодирует ошибку предсказания вознаграждения — разницу между полученным и ожидаемым вознаграждением, обеспечивая обучающий сигнал, используемый в обучении с подкреплением на основе временных различий для обновления оценок ценности.
- Концепция принятия решений, основанных на ценности
- Выбор декомпозируется на этапы: представление вариантов, оценка, выбор действия, оценка результата и обучение, что позволяет сопоставить различные нейронные системы с каждым вычислительным шагом, а не рассматривать решение как единый процесс.
Mechanisms
Центральным механизмом является ошибка предсказания вознаграждения: дофаминовые нейроны среднего мозга увеличивают частоту разрядов, когда результат лучше ожидаемого, и уменьшают ее, когда он хуже, что соответствует обучающему сигналу обучения с подкреплением на основе временных различий (Schultz et al., 1997). Считается, что эти сигналы обновляют представления ценности в целевых областях, особенно в стриатуме, где нейронная активность отражает ценность доступных действий (Samejima et al., 2005). Орбитофронтальная и вентромедиальная префронтальная кора представляют ценность товаров и вариантов по общей шкале, что позволяет сравнивать их при выборе (Wallis, 2007). Принятие решений может быть проанализировано как последовательность вычислительных этапов: представление, оценка, выбор и обучение, каждый из которых поддерживается частично различными цепями (Rangel et al., 2008).
Clinical relevance
Цепи вознаграждения и оценки задействованы в том, как исследователи и клиницисты понимают мотивацию и ряд состояний, включая зависимость, депрессию, а также последствия дофаминергических заболеваний и лечения, что демонстрируется измененным обучением с подкреплением при болезни Паркинсона (Frank et al., 2004). Эта статья является образовательным справочником по механизмам вознаграждения и принятия решений и не является основанием для диагностики или лечения какого-либо человека.
Evidence & guidelines
Описание основано на конвергентных доказательствах, полученных в результате регистрации активности отдельных нейронов у животных, нейровизуализации у человека, вычислительного моделирования и исследований пациентов с дофаминергическими расстройствами (Schultz et al., 1997; Samejima et al., 2005; Frank et al., 2004), обобщенных в крупных обзорах по оценке и выбору (Rangel et al., 2008; Wallis, 2007).
History
Ранние эксперименты по электрической самостимуляции в 1950-х годах выявили области мозга, активацию которых животные стремились получить, что заложило идею системы вознаграждения. В 1980-х и 1990-х годах записи активности дофаминовых нейронов среднего мозга Шульцем и его коллегами, интерпретированные с помощью теории обучения с подкреплением, разработанной Саттоном и Барто и примененной Монтегю и Дайаном, переосмыслили дофамин как сигнал ошибки предсказания, а не сигнал удовольствия. Последующее появление нейроэкономики объединило экономические теории ценности с нейробиологией для изучения того, как мозг вычисляет и сравнивает ценность при выборе.
Debates
- Что именно кодирует дофамин?
- Гипотеза ошибки предсказания является влиятельной, но продолжаются дебаты о том, сигнализирует ли фазовый дофамин строго ошибку предсказания вознаграждения или также передает значимость, новизну или мотивационную энергию, и как тонические и фазовые сигналы различаются по функции.
Key figures
- Wolfram Schultz
- Peter Dayan
- P. Read Montague
- Antonio Rangel
- Michael Frank
Related topics
Seminal works
- schultz-1997
- rangel-2008
- wallis-2007
Frequently asked questions
- Что такое ошибка предсказания вознаграждения?
- Это разница между вознаграждением, которое приносит результат, и ожидаемым вознаграждением. Дофаминовые нейроны среднего мозга сигнализируют об этой разнице, увеличивая частоту разрядов при лучших, чем ожидалось, результатах и уменьшая ее при худших, чем ожидалось, что обеспечивает обучающий сигнал, обновляющий будущие ожидания.
- Является ли дофамин «химическим веществом удовольствия» мозга?
- Это популярное описание вводит в заблуждение. Многие данные показывают, что фазовые дофаминовые сигналы в основном связаны с обучением и предсказанием вознаграждения, а не с самим переживанием удовольствия, которое, по-видимому, включает другие системы.