Imbalan dan Pengambilan Keputusan
Pemrosesan imbalan dan pengambilan keputusan berbasis nilai berkaitan dengan bagaimana otak merepresentasikan nilai hasil, belajar dari konsekuensi tindakan, dan memilih di antara berbagai opsi. Neuron dopamin otak tengah memberi sinyal perbedaan antara imbalan yang diharapkan dan yang diterima, dan jaringan yang mencakup striatum, korteks orbitofrontal, dan prefrontal ventromedial menghitung dan membandingkan nilai pilihan untuk memandu perilaku.
Definition
Imbalan dan pengambilan keputusan adalah studi tentang bagaimana otak menetapkan nilai pada hasil, memperbarui ekspektasi melalui pembelajaran dari kesalahan prediksi, dan menggunakan representasi nilai ini untuk memilih di antara tindakan yang bersaing.
Scope
Topik ini mencakup ilmu saraf tentang imbalan dan pengambilan keputusan berbasis nilai sebagai materi referensi dalam ilmu saraf kognitif. Ini memperkenalkan sinyal kesalahan prediksi imbalan, sistem penilaian otak, kerangka kerja pembelajaran penguatan, dan relevansi sirkuit ini terhadap motivasi dan gangguan imbalan. Ini menjelaskan mekanisme dan bukti dan bukan panduan klinis.
Core questions
- Bagaimana otak merepresentasikan nilai dari berbagai hasil dan opsi?
- Bagaimana sinyal dopamin dan mekanisme pembelajaran penguatan memungkinkan otak belajar dari imbalan dan hukuman?
- Wilayah mana yang menghitung, membandingkan, dan bertindak berdasarkan nilai selama pengambilan keputusan?
Key concepts
- Kesalahan prediksi imbalan
- Sinyal dopamin fasik
- Pembelajaran penguatan dan pembelajaran perbedaan temporal
- Nilai subjektif dan nilai yang diharapkan
- Penilaian orbitofrontal dan prefrontal ventromedial
- Striatum dan nilai tindakan
- Eksplorasi versus eksploitasi
- Gangguan terkait imbalan
Key theories
- Hipotesis kesalahan prediksi imbalan dopamin
- Aktivitas fasik neuron dopamin otak tengah mengkodekan kesalahan prediksi imbalan, perbedaan antara imbalan yang diterima dan yang diharapkan, memberikan sinyal pengajaran jenis yang digunakan dalam pembelajaran penguatan perbedaan temporal untuk memperbarui estimasi nilai.
- Kerangka kerja pengambilan keputusan berbasis nilai
- Pilihan diuraikan menjadi beberapa tahapan, representasi opsi, penilaian, pemilihan tindakan, evaluasi hasil, dan pembelajaran, memungkinkan sistem saraf yang berbeda untuk dipetakan ke setiap langkah komputasi daripada memperlakukan keputusan sebagai satu proses tunggal.
Mechanisms
Mekanisme sentral adalah kesalahan prediksi imbalan: neuron dopamin otak tengah meningkatkan penembakan ketika hasil lebih baik dari yang diharapkan dan mengurangi penembakan ketika lebih buruk, sebuah pola yang cocok dengan sinyal pengajaran pembelajaran penguatan perbedaan temporal (Schultz et al., 1997). Sinyal-sinyal ini diperkirakan memperbarui representasi nilai di daerah target, terutama striatum, di mana aktivitas saraf mencerminkan nilai tindakan yang tersedia (Samejima et al., 2005). Korteks orbitofrontal dan prefrontal ventromedial merepresentasikan nilai barang dan opsi pada skala umum yang memungkinkan perbandingan antar pilihan (Wallis, 2007). Pengambilan keputusan dapat dianalisis sebagai urutan tahapan komputasi, representasi, penilaian, pemilihan, dan pembelajaran, masing-masing didukung oleh sirkuit yang sebagian berbeda (Rangel et al., 2008).
Clinical relevance
Sirkuit imbalan dan penilaian terlibat dalam bagaimana peneliti dan klinisi memahami motivasi dan berbagai kondisi, termasuk kecanduan, depresi, dan efek penyakit dan pengobatan dopaminergik, seperti yang ditunjukkan oleh perubahan pembelajaran penguatan pada penyakit Parkinson (Frank et al., 2004). Entri ini adalah referensi pendidikan untuk mekanisme imbalan dan keputusan dan bukan dasar untuk mendiagnosis atau mengobati individu mana pun.
Evidence & guidelines
Penjelasan ini didasarkan pada bukti konvergen dari rekaman unit tunggal pada hewan, pencitraan saraf manusia, pemodelan komputasi, dan studi pasien dengan gangguan dopaminergik (Schultz et al., 1997; Samejima et al., 2005; Frank et al., 2004), yang disintesis dalam tinjauan utama tentang penilaian dan pilihan (Rangel et al., 2008; Wallis, 2007).
History
Eksperimen stimulasi diri listrik awal pada tahun 1950-an mengidentifikasi daerah otak yang aktivasinya akan diupayakan oleh hewan, membangun gagasan tentang sistem imbalan. Sepanjang tahun 1980-an dan 1990-an, rekaman neuron dopamin otak tengah oleh Schultz dan rekan, yang diinterpretasikan dengan teori pembelajaran penguatan yang dikembangkan oleh Sutton dan Barto dan diterapkan oleh Montague dan Dayan, mengklasifikasikan ulang dopamin sebagai sinyal kesalahan prediksi daripada sinyal kesenangan. Munculnya neuroekonomi selanjutnya mengintegrasikan teori nilai ekonomi dengan ilmu saraf untuk mempelajari bagaimana otak menghitung dan membandingkan nilai selama pilihan.
Debates
- Apa sebenarnya yang dikodekan oleh dopamin?
- Penjelasan kesalahan prediksi sangat berpengaruh, tetapi perdebatan terus berlanjut mengenai apakah sinyal dopamin fasik secara ketat merupakan kesalahan prediksi imbalan atau juga menyampaikan salience, kebaruan, atau kekuatan motivasi, dan bagaimana sinyal tonik dan fasik berbeda dalam fungsi.
Key figures
- Wolfram Schultz
- Peter Dayan
- P. Read Montague
- Antonio Rangel
- Michael Frank
Related topics
Seminal works
- schultz-1997
- rangel-2008
- wallis-2007
Frequently asked questions
- Apa itu kesalahan prediksi imbalan?
- Ini adalah perbedaan antara imbalan yang diberikan oleh suatu hasil dan imbalan yang diharapkan. Neuron dopamin otak tengah memberi sinyal perbedaan ini, menembak lebih banyak untuk hasil yang lebih baik dari yang diharapkan dan lebih sedikit untuk hasil yang lebih buruk dari yang diharapkan, yang memberikan sinyal pembelajaran yang memperbarui ekspektasi di masa depan.
- Apakah dopamin adalah 'zat kimia kesenangan' otak?
- Deskripsi populer itu menyesatkan. Banyak bukti menunjukkan bahwa sinyal dopamin fasik terutama berkaitan dengan pembelajaran dan prediksi imbalan daripada pengalaman kesenangan itu sendiri, yang tampaknya melibatkan sistem lain.