خطای پیشبینی پاداش چیست؟

این تفاوت بین پاداشی است که یک پیامد ارائه میدهد و پاداشی که انتظار میرفت. نورونهای دوپامین میانمغزی این تفاوت را سیگنالدهی میکنند، برای پیامدهای بهتر از حد انتظار بیشتر شلیک میکنند و برای پیامدهای بدتر از حد انتظار کمتر شلیک میکنند، که یک سیگنال یادگیری را فراهم میآورد که انتظارات آینده را بهروزرسانی میکند.

آیا دوپامین «ماده شیمیایی لذت» مغز است؟

این توصیف رایج گمراهکننده است. شواهد زیادی نشان میدهد که سیگنالهای فازیک دوپامین عمدتاً به یادگیری و پیشبینی پاداش مربوط میشوند تا به تجربه خود لذت، که به نظر میرسد سیستمهای دیگری را درگیر میکند.

پاداش و تصمیم‌گیری

پردازش پاداش و تصمیم‌گیری مبتنی بر ارزش به این موضوع می‌پردازد که چگونه مغز ارزش پیامدها را بازنمایی می‌کند، از پیامدهای اعمال می‌آموزد و بین گزینه‌ها انتخاب می‌کند. نورون‌های دوپامین میان‌مغزی، تفاوت بین پاداش مورد انتظار و پاداش دریافتی را علامت‌دهی می‌کنند و شبکه‌ای شامل استریاتوم، قشر اوربیتوفرونتال و قشر پیش‌پیشانی شکمی-میانی، ارزش انتخاب‌ها را برای هدایت رفتار محاسبه و مقایسه می‌کند.

یافتن موضوع با PaperMindبه‌زودیFind papers & topics

Tools & resources

دریافت اسلایدها

Learn & explore

ویدیوبه‌زودی

Definition

پاداش و تصمیم‌گیری مطالعه‌ای است در مورد اینکه چگونه مغز به پیامدها ارزش اختصاص می‌دهد، انتظارات را از طریق یادگیری از خطاهای پیش‌بینی به‌روزرسانی می‌کند و از این بازنمایی‌های ارزشی برای انتخاب بین اعمال رقیب استفاده می‌کند.

Scope

این موضوع به علوم اعصاب پاداش و تصمیم‌گیری مبتنی بر ارزش به عنوان یک منبع مرجع در علوم اعصاب شناختی می‌پردازد. این مبحث، سیگنال‌دهی خطای پیش‌بینی پاداش، سیستم‌های ارزش‌گذاری مغز، چارچوب‌های یادگیری تقویتی و ارتباط این مدارهای عصبی با انگیزه و اختلالات پاداش را معرفی می‌کند. این مطلب سازوکارها و شواهد را توضیح می‌دهد و راهنمای بالینی نیست.

Core questions

مغز چگونه ارزش پیامدها و گزینه‌های مختلف را بازنمایی می‌کند؟
سیگنال‌های دوپامین و سازوکارهای یادگیری تقویتی چگونه به مغز اجازه می‌دهند از پاداش و تنبیه بیاموزد؟
کدام مناطق در طول تصمیم‌گیری، ارزش را محاسبه، مقایسه و بر اساس آن عمل می‌کنند؟

Key concepts

خطای پیش‌بینی پاداش
سیگنال‌دهی فازیک دوپامین
یادگیری تقویتی و یادگیری تفاوت زمانی
ارزش ذهنی و مورد انتظار
ارزش‌گذاری اوربیتوفرونتال و ونترومدیال پیش‌پیشانی
استریاتوم و ارزش عمل
اکتشاف در مقابل بهره‌برداری
اختلالات مرتبط با پاداش

Key theories

فرضیه خطای پیش‌بینی پاداش دوپامین: فعالیت فازیک نورون‌های دوپامین میان‌مغزی یک خطای پیش‌بینی پاداش را کدگذاری می‌کند، یعنی تفاوت بین پاداش دریافتی و پاداش مورد انتظار، که یک سیگنال آموزشی از نوع مورد استفاده در یادگیری تقویتی تفاوت زمانی برای به‌روزرسانی تخمین‌های ارزش را فراهم می‌آورد.
چارچوب تصمیم‌گیری مبتنی بر ارزش: انتخاب به مراحل بازنمایی گزینه‌ها، ارزش‌گذاری، انتخاب عمل، ارزیابی پیامد و یادگیری تجزیه می‌شود، که امکان نگاشت سیستم‌های عصبی متمایز را به هر مرحله محاسباتی فراهم می‌آورد، به جای اینکه تصمیم‌گیری به عنوان یک فرآیند واحد در نظر گرفته شود.

Mechanisms

یک سازوکار مرکزی، خطای پیش‌بینی پاداش است: نورون‌های دوپامین میان‌مغزی زمانی که یک پیامد بهتر از حد انتظار باشد، شلیک خود را افزایش می‌دهند و زمانی که بدتر باشد، شلیک خود را کاهش می‌دهند؛ این الگو با سیگنال آموزشی یادگیری تقویتی تفاوت زمانی (Schultz et al., 1997) مطابقت دارد. تصور می‌شود که این سیگنال‌ها بازنمایی‌های ارزشی را در مناطق هدف، به ویژه استریاتوم، به‌روزرسانی می‌کنند، جایی که فعالیت نورونی منعکس‌کننده ارزش اعمال موجود است (Samejima et al., 2005). قشر اوربیتوفرونتال و قشر پیش‌پیشانی شکمی-میانی، ارزش کالاها و گزینه‌ها را در مقیاسی مشترک بازنمایی می‌کنند که امکان مقایسه بین انتخاب‌ها را فراهم می‌آورد (Wallis, 2007). تصمیم‌گیری را می‌توان به عنوان توالی‌ای از مراحل محاسباتی، بازنمایی، ارزش‌گذاری، انتخاب و یادگیری تحلیل کرد که هر یک توسط مدارهای تا حدی متمایز پشتیبانی می‌شوند (Rangel et al., 2008).

Clinical relevance

مدارهای پاداش و ارزش‌گذاری در نحوه درک محققان و بالینگران از انگیزه و طیفی از شرایط، از جمله اعتیاد، افسردگی، و اثرات بیماری و درمان دوپامینرژیک، نقش دارند، همانطور که با تغییر یادگیری تقویتی در بیماری پارکینسون نشان داده شده است (Frank et al., 2004). این مدخل یک مرجع آموزشی برای سازوکارهای پاداش و تصمیم‌گیری است و مبنایی برای تشخیص یا درمان هیچ فردی نیست.

Evidence & guidelines

این گزارش بر شواهد همگرا از ثبت تک‌واحدی در حیوانات، تصویربرداری عصبی انسانی، مدل‌سازی محاسباتی و مطالعات بیماران مبتلا به اختلالات دوپامینرژیک (Schultz et al., 1997; Samejima et al., 2005; Frank et al., 2004) استوار است که در بررسی‌های اصلی ارزش‌گذاری و انتخاب (Rangel et al., 2008; Wallis, 2007) ترکیب شده‌اند.

History

آزمایش‌های اولیه تحریک الکتریکی خودکار در دهه ۱۹۵۰، مناطق مغزی را شناسایی کردند که حیوانات برای فعال‌سازی آن‌ها تلاش می‌کردند، و ایده یک سیستم پاداش را پایه‌گذاری کردند. در طول دهه‌های ۱۹۸۰ و ۱۹۹۰، ثبت‌های نورون‌های دوپامین میان‌مغزی توسط شولتز و همکاران، که با نظریه یادگیری تقویتی توسعه‌یافته توسط ساتون و بارتو و به کار گرفته شده توسط مونتاگو و دایان تفسیر شد، دوپامین را به عنوان یک سیگنال خطای پیش‌بینی به جای یک سیگنال لذت بازتعریف کرد. ظهور متعاقب نورواکونومیکس، نظریه‌های اقتصادی ارزش را با علوم اعصاب ادغام کرد تا چگونگی محاسبه و مقایسه ارزش توسط مغز در طول انتخاب را مطالعه کند.

Debates

دوپامین دقیقاً چه چیزی را کدگذاری می‌کند؟: توضیح خطای پیش‌بینی تأثیرگذار است، اما بحث در مورد اینکه آیا سیگنال‌های فازیک دوپامین صرفاً یک خطای پیش‌بینی پاداش را نشان می‌دهند یا همچنین برجستگی، تازگی یا نیروی انگیزشی را منتقل می‌کنند، و اینکه سیگنال‌های تونیک و فازیک چگونه در عملکرد متفاوت هستند، ادامه دارد.

Key figures

Wolfram Schultz
Peter Dayan
P. Read Montague
Antonio Rangel
Michael Frank

Seminal works

schultz-1997
rangel-2008
wallis-2007

Frequently asked questions

خطای پیش‌بینی پاداش چیست؟: این تفاوت بین پاداشی است که یک پیامد ارائه می‌دهد و پاداشی که انتظار می‌رفت. نورون‌های دوپامین میان‌مغزی این تفاوت را سیگنال‌دهی می‌کنند، برای پیامدهای بهتر از حد انتظار بیشتر شلیک می‌کنند و برای پیامدهای بدتر از حد انتظار کمتر شلیک می‌کنند، که یک سیگنال یادگیری را فراهم می‌آورد که انتظارات آینده را به‌روزرسانی می‌کند.
آیا دوپامین «ماده شیمیایی لذت» مغز است؟: این توصیف رایج گمراه‌کننده است. شواهد زیادی نشان می‌دهد که سیگنال‌های فازیک دوپامین عمدتاً به یادگیری و پیش‌بینی پاداش مربوط می‌شوند تا به تجربه خود لذت، که به نظر می‌رسد سیستم‌های دیگری را درگیر می‌کند.