پاداش و تصمیمگیری
پردازش پاداش و تصمیمگیری مبتنی بر ارزش به این موضوع میپردازد که چگونه مغز ارزش پیامدها را بازنمایی میکند، از پیامدهای اعمال میآموزد و بین گزینهها انتخاب میکند. نورونهای دوپامین میانمغزی، تفاوت بین پاداش مورد انتظار و پاداش دریافتی را علامتدهی میکنند و شبکهای شامل استریاتوم، قشر اوربیتوفرونتال و قشر پیشپیشانی شکمی-میانی، ارزش انتخابها را برای هدایت رفتار محاسبه و مقایسه میکند.
Definition
پاداش و تصمیمگیری مطالعهای است در مورد اینکه چگونه مغز به پیامدها ارزش اختصاص میدهد، انتظارات را از طریق یادگیری از خطاهای پیشبینی بهروزرسانی میکند و از این بازنماییهای ارزشی برای انتخاب بین اعمال رقیب استفاده میکند.
Scope
این موضوع به علوم اعصاب پاداش و تصمیمگیری مبتنی بر ارزش به عنوان یک منبع مرجع در علوم اعصاب شناختی میپردازد. این مبحث، سیگنالدهی خطای پیشبینی پاداش، سیستمهای ارزشگذاری مغز، چارچوبهای یادگیری تقویتی و ارتباط این مدارهای عصبی با انگیزه و اختلالات پاداش را معرفی میکند. این مطلب سازوکارها و شواهد را توضیح میدهد و راهنمای بالینی نیست.
Core questions
- مغز چگونه ارزش پیامدها و گزینههای مختلف را بازنمایی میکند؟
- سیگنالهای دوپامین و سازوکارهای یادگیری تقویتی چگونه به مغز اجازه میدهند از پاداش و تنبیه بیاموزد؟
- کدام مناطق در طول تصمیمگیری، ارزش را محاسبه، مقایسه و بر اساس آن عمل میکنند؟
Key concepts
- خطای پیشبینی پاداش
- سیگنالدهی فازیک دوپامین
- یادگیری تقویتی و یادگیری تفاوت زمانی
- ارزش ذهنی و مورد انتظار
- ارزشگذاری اوربیتوفرونتال و ونترومدیال پیشپیشانی
- استریاتوم و ارزش عمل
- اکتشاف در مقابل بهرهبرداری
- اختلالات مرتبط با پاداش
Key theories
- فرضیه خطای پیشبینی پاداش دوپامین
- فعالیت فازیک نورونهای دوپامین میانمغزی یک خطای پیشبینی پاداش را کدگذاری میکند، یعنی تفاوت بین پاداش دریافتی و پاداش مورد انتظار، که یک سیگنال آموزشی از نوع مورد استفاده در یادگیری تقویتی تفاوت زمانی برای بهروزرسانی تخمینهای ارزش را فراهم میآورد.
- چارچوب تصمیمگیری مبتنی بر ارزش
- انتخاب به مراحل بازنمایی گزینهها، ارزشگذاری، انتخاب عمل، ارزیابی پیامد و یادگیری تجزیه میشود، که امکان نگاشت سیستمهای عصبی متمایز را به هر مرحله محاسباتی فراهم میآورد، به جای اینکه تصمیمگیری به عنوان یک فرآیند واحد در نظر گرفته شود.
Mechanisms
یک سازوکار مرکزی، خطای پیشبینی پاداش است: نورونهای دوپامین میانمغزی زمانی که یک پیامد بهتر از حد انتظار باشد، شلیک خود را افزایش میدهند و زمانی که بدتر باشد، شلیک خود را کاهش میدهند؛ این الگو با سیگنال آموزشی یادگیری تقویتی تفاوت زمانی (Schultz et al., 1997) مطابقت دارد. تصور میشود که این سیگنالها بازنماییهای ارزشی را در مناطق هدف، به ویژه استریاتوم، بهروزرسانی میکنند، جایی که فعالیت نورونی منعکسکننده ارزش اعمال موجود است (Samejima et al., 2005). قشر اوربیتوفرونتال و قشر پیشپیشانی شکمی-میانی، ارزش کالاها و گزینهها را در مقیاسی مشترک بازنمایی میکنند که امکان مقایسه بین انتخابها را فراهم میآورد (Wallis, 2007). تصمیمگیری را میتوان به عنوان توالیای از مراحل محاسباتی، بازنمایی، ارزشگذاری، انتخاب و یادگیری تحلیل کرد که هر یک توسط مدارهای تا حدی متمایز پشتیبانی میشوند (Rangel et al., 2008).
Clinical relevance
مدارهای پاداش و ارزشگذاری در نحوه درک محققان و بالینگران از انگیزه و طیفی از شرایط، از جمله اعتیاد، افسردگی، و اثرات بیماری و درمان دوپامینرژیک، نقش دارند، همانطور که با تغییر یادگیری تقویتی در بیماری پارکینسون نشان داده شده است (Frank et al., 2004). این مدخل یک مرجع آموزشی برای سازوکارهای پاداش و تصمیمگیری است و مبنایی برای تشخیص یا درمان هیچ فردی نیست.
Evidence & guidelines
این گزارش بر شواهد همگرا از ثبت تکواحدی در حیوانات، تصویربرداری عصبی انسانی، مدلسازی محاسباتی و مطالعات بیماران مبتلا به اختلالات دوپامینرژیک (Schultz et al., 1997; Samejima et al., 2005; Frank et al., 2004) استوار است که در بررسیهای اصلی ارزشگذاری و انتخاب (Rangel et al., 2008; Wallis, 2007) ترکیب شدهاند.
History
آزمایشهای اولیه تحریک الکتریکی خودکار در دهه ۱۹۵۰، مناطق مغزی را شناسایی کردند که حیوانات برای فعالسازی آنها تلاش میکردند، و ایده یک سیستم پاداش را پایهگذاری کردند. در طول دهههای ۱۹۸۰ و ۱۹۹۰، ثبتهای نورونهای دوپامین میانمغزی توسط شولتز و همکاران، که با نظریه یادگیری تقویتی توسعهیافته توسط ساتون و بارتو و به کار گرفته شده توسط مونتاگو و دایان تفسیر شد، دوپامین را به عنوان یک سیگنال خطای پیشبینی به جای یک سیگنال لذت بازتعریف کرد. ظهور متعاقب نورواکونومیکس، نظریههای اقتصادی ارزش را با علوم اعصاب ادغام کرد تا چگونگی محاسبه و مقایسه ارزش توسط مغز در طول انتخاب را مطالعه کند.
Debates
- دوپامین دقیقاً چه چیزی را کدگذاری میکند؟
- توضیح خطای پیشبینی تأثیرگذار است، اما بحث در مورد اینکه آیا سیگنالهای فازیک دوپامین صرفاً یک خطای پیشبینی پاداش را نشان میدهند یا همچنین برجستگی، تازگی یا نیروی انگیزشی را منتقل میکنند، و اینکه سیگنالهای تونیک و فازیک چگونه در عملکرد متفاوت هستند، ادامه دارد.
Key figures
- Wolfram Schultz
- Peter Dayan
- P. Read Montague
- Antonio Rangel
- Michael Frank
Related topics
Seminal works
- schultz-1997
- rangel-2008
- wallis-2007
Frequently asked questions
- خطای پیشبینی پاداش چیست؟
- این تفاوت بین پاداشی است که یک پیامد ارائه میدهد و پاداشی که انتظار میرفت. نورونهای دوپامین میانمغزی این تفاوت را سیگنالدهی میکنند، برای پیامدهای بهتر از حد انتظار بیشتر شلیک میکنند و برای پیامدهای بدتر از حد انتظار کمتر شلیک میکنند، که یک سیگنال یادگیری را فراهم میآورد که انتظارات آینده را بهروزرسانی میکند.
- آیا دوپامین «ماده شیمیایی لذت» مغز است؟
- این توصیف رایج گمراهکننده است. شواهد زیادی نشان میدهد که سیگنالهای فازیک دوپامین عمدتاً به یادگیری و پیشبینی پاداش مربوط میشوند تا به تجربه خود لذت، که به نظر میرسد سیستمهای دیگری را درگیر میکند.