ความผิดพลาดในการทำนายรางวัลคืออะไร?

คือความแตกต่างระหว่างรางวัลที่ผลลัพธ์ให้มากับรางวัลที่คาดหวัง เซลล์ประสาทโดปามีนในสมองส่วนกลางส่งสัญญาณความแตกต่างนี้ โดยจะยิงสัญญาณมากขึ้นสำหรับผลลัพธ์ที่ดีกว่าที่คาดไว้ และน้อยลงสำหรับผลลัพธ์ที่แย่กว่าที่คาดไว้ ซึ่งให้สัญญาณการเรียนรู้ที่ปรับปรุงความคาดหวังในอนาคต

โดปามีนเป็น 'สารเคมีแห่งความสุข' ของสมองหรือไม่?

คำอธิบายยอดนิยมนั้นทำให้เข้าใจผิด หลักฐานจำนวนมากบ่งชี้ว่าสัญญาณโดปามีนแบบเฟสิกส่วนใหญ่เกี่ยวข้องกับการเรียนรู้และการทำนายรางวัลมากกว่าประสบการณ์ความสุขเอง ซึ่งดูเหมือนจะเกี่ยวข้องกับระบบอื่นๆ

การให้รางวัลและการตัดสินใจ

การประมวลผลรางวัลและการตัดสินใจโดยอิงตามคุณค่าเกี่ยวข้องกับวิธีที่สมองแสดงคุณค่าของผลลัพธ์ การเรียนรู้จากผลของการกระทำ และการเลือกจากทางเลือกต่างๆ เซลล์ประสาทโดปามีนในสมองส่วนกลางส่งสัญญาณความคลาดเคลื่อนระหว่างรางวัลที่คาดหวังกับรางวัลที่ได้รับ และเครือข่ายที่รวมถึงสไตรอาตัม ออร์บิโตฟรอนทัล และเวนโทรมีเดียล พรีฟรอนทัล คอร์เทกซ์ จะคำนวณและเปรียบเทียบคุณค่าของทางเลือกเพื่อนำทางพฤติกรรม

ค้นหาหัวข้อด้วย PaperMindเร็ว ๆ นี้Find papers & topics

Tools & resources

ดาวน์โหลดสไลด์

Learn & explore

วิดีโอเร็ว ๆ นี้

Definition

การให้รางวัลและการตัดสินใจคือการศึกษาว่าสมองกำหนดคุณค่าให้กับผลลัพธ์อย่างไร ปรับปรุงความคาดหวังผ่านการเรียนรู้จากความผิดพลาดในการทำนาย และใช้การแสดงคุณค่าเหล่านี้เพื่อเลือกการกระทำที่แข่งขันกัน

Scope

หัวข้อนี้ครอบคลุมประสาทวิทยาของการให้รางวัลและการตัดสินใจโดยอิงตามคุณค่าในฐานะเอกสารอ้างอิงในประสาทวิทยาการรู้คิด โดยนำเสนอการส่งสัญญาณความผิดพลาดในการทำนายรางวัล ระบบการประเมินคุณค่าของสมอง กรอบการเรียนรู้แบบเสริมแรง และความเกี่ยวข้องของวงจรเหล่านี้กับแรงจูงใจและความผิดปกติของการให้รางวัล อธิบายกลไกและหลักฐาน และไม่ใช่แนวทางปฏิบัติทางคลินิก

Core questions

สมองแสดงคุณค่าของผลลัพธ์และทางเลือกที่แตกต่างกันอย่างไร?
สัญญาณโดปามีนและกลไกการเรียนรู้แบบเสริมแรงช่วยให้สมองเรียนรู้จากรางวัลและการลงโทษได้อย่างไร?
บริเวณใดที่คำนวณ เปรียบเทียบ และดำเนินการตามคุณค่าในระหว่างการตัดสินใจ?

Key concepts

ความผิดพลาดในการทำนายรางวัล
การส่งสัญญาณโดปามีนแบบเฟสิก
การเรียนรู้แบบเสริมแรงและการเรียนรู้แบบความแตกต่างเชิงเวลา
คุณค่าเชิงอัตวิสัยและคุณค่าที่คาดหวัง
การประเมินคุณค่าของออร์บิโตฟรอนทัลและเวนโทรมีเดียล พรีฟรอนทัล
สไตรอาตัมและคุณค่าของการกระทำ
การสำรวจเทียบกับการใช้ประโยชน์
ความผิดปกติที่เกี่ยวข้องกับรางวัล

Key theories

สมมติฐานความผิดพลาดในการทำนายรางวัลของโดปามีน: กิจกรรมแบบเฟสิกของเซลล์ประสาทโดปามีนในสมองส่วนกลางเข้ารหัสความผิดพลาดในการทำนายรางวัล ซึ่งเป็นความแตกต่างระหว่างรางวัลที่ได้รับกับรางวัลที่คาดหวัง โดยให้สัญญาณการสอนในลักษณะที่ใช้ในการเรียนรู้แบบเสริมแรงแบบความแตกต่างเชิงเวลาเพื่อปรับปรุงการประมาณค่า
กรอบการตัดสินใจโดยอิงตามคุณค่า: การเลือกถูกแยกออกเป็นขั้นตอนต่างๆ ได้แก่ การแสดงทางเลือก การประเมินคุณค่า การเลือกการกระทำ การประเมินผลลัพธ์ และการเรียนรู้ ซึ่งช่วยให้ระบบประสาทที่แตกต่างกันสามารถจับคู่กับแต่ละขั้นตอนการคำนวณ แทนที่จะมองว่าการตัดสินใจเป็นกระบวนการเดียว

Mechanisms

กลไกหลักคือความผิดพลาดในการทำนายรางวัล: เซลล์ประสาทโดปามีนในสมองส่วนกลางจะเพิ่มการยิงสัญญาณเมื่อผลลัพธ์ดีกว่าที่คาดไว้ และลดการยิงสัญญาณเมื่อผลลัพธ์แย่กว่าที่คาดไว้ ซึ่งเป็นรูปแบบที่ตรงกับสัญญาณการสอนของการเรียนรู้แบบเสริมแรงแบบความแตกต่างเชิงเวลา (Schultz et al., 1997) สัญญาณเหล่านี้เชื่อกันว่าปรับปรุงการแสดงคุณค่าในบริเวณเป้าหมาย โดยเฉพาะอย่างยิ่งสไตรอาตัม ซึ่งกิจกรรมของเซลล์ประสาทสะท้อนถึงคุณค่าของการกระทำที่มีอยู่ (Samejima et al., 2005) ออร์บิโตฟรอนทัลและเวนโทรมีเดียล พรีฟรอนทัล คอร์เทกซ์ แสดงถึงคุณค่าของสินค้าและทางเลือกในมาตราส่วนร่วมที่ช่วยให้สามารถเปรียบเทียบระหว่างทางเลือกได้ (Wallis, 2007) การตัดสินใจสามารถวิเคราะห์ได้ว่าเป็นลำดับของขั้นตอนการคำนวณ ได้แก่ การแสดง การประเมิน การเลือก และการเรียนรู้ ซึ่งแต่ละขั้นตอนได้รับการสนับสนุนโดยวงจรที่แตกต่างกันบางส่วน (Rangel et al., 2008)

Clinical relevance

วงจรการให้รางวัลและการประเมินคุณค่ามีส่วนเกี่ยวข้องกับวิธีที่นักวิจัยและแพทย์ทำความเข้าใจแรงจูงใจและภาวะต่างๆ รวมถึงการติดยาเสพติด ภาวะซึมเศร้า และผลกระทบของโรคและการรักษาที่เกี่ยวข้องกับโดปามีน ดังที่แสดงให้เห็นจากการเรียนรู้แบบเสริมแรงที่เปลี่ยนแปลงไปในโรคพาร์กินสัน (Frank et al., 2004) บทความนี้เป็นเอกสารอ้างอิงทางการศึกษาเกี่ยวกับกลไกการให้รางวัลและการตัดสินใจ และไม่ใช่พื้นฐานสำหรับการวินิจฉัยหรือการรักษาบุคคลใดๆ

Evidence & guidelines

คำอธิบายนี้อิงตามหลักฐานที่มาบรรจบกันจากการบันทึกเซลล์เดี่ยวในสัตว์ การถ่ายภาพประสาทในมนุษย์ การสร้างแบบจำลองเชิงคำนวณ และการศึกษาผู้ป่วยที่มีความผิดปกติของโดปามีน (Schultz et al., 1997; Samejima et al., 2005; Frank et al., 2004) ซึ่งสังเคราะห์ในบทวิจารณ์หลักของการประเมินคุณค่าและการเลือก (Rangel et al., 2008; Wallis, 2007)

History

การทดลองกระตุ้นด้วยไฟฟ้าด้วยตนเองในช่วงทศวรรษ 1950 ได้ระบุบริเวณสมองที่สัตว์จะทำงานเพื่อให้ได้มาซึ่งการกระตุ้น ซึ่งเป็นการสร้างแนวคิดของระบบการให้รางวัล ตลอดช่วงทศวรรษ 1980 และ 1990 การบันทึกเซลล์ประสาทโดปามีนในสมองส่วนกลางโดย Schultz และเพื่อนร่วมงาน ซึ่งตีความด้วยทฤษฎีการเรียนรู้แบบเสริมแรงที่พัฒนาโดย Sutton และ Barto และนำไปใช้โดย Montague และ Dayan ได้เปลี่ยนความเข้าใจเกี่ยวกับโดปามีนว่าเป็นสัญญาณความผิดพลาดในการทำนายมากกว่าสัญญาณความสุข การเกิดขึ้นของเศรษฐศาสตร์ประสาทในเวลาต่อมาได้รวมทฤษฎีเศรษฐศาสตร์ของมูลค่าเข้ากับประสาทวิทยาเพื่อศึกษาว่าสมองคำนวณและเปรียบเทียบมูลค่าอย่างไรในระหว่างการเลือก

Debates

โดปามีนเข้ารหัสอะไรกันแน่?: คำอธิบายความผิดพลาดในการทำนายมีอิทธิพล แต่ยังคงมีการถกเถียงกันว่าสัญญาณโดปามีนแบบเฟสิกส่งสัญญาณความผิดพลาดในการทำนายรางวัลอย่างเคร่งครัด หรือยังส่งสัญญาณความโดดเด่น ความแปลกใหม่ หรือความกระตือรือร้นในการจูงใจ และสัญญาณแบบโทนิกและแบบเฟสิกแตกต่างกันอย่างไรในหน้าที่

Key figures

Wolfram Schultz
Peter Dayan
P. Read Montague
Antonio Rangel
Michael Frank

Seminal works

schultz-1997
rangel-2008
wallis-2007

Frequently asked questions

ความผิดพลาดในการทำนายรางวัลคืออะไร?: คือความแตกต่างระหว่างรางวัลที่ผลลัพธ์ให้มากับรางวัลที่คาดหวัง เซลล์ประสาทโดปามีนในสมองส่วนกลางส่งสัญญาณความแตกต่างนี้ โดยจะยิงสัญญาณมากขึ้นสำหรับผลลัพธ์ที่ดีกว่าที่คาดไว้ และน้อยลงสำหรับผลลัพธ์ที่แย่กว่าที่คาดไว้ ซึ่งให้สัญญาณการเรียนรู้ที่ปรับปรุงความคาดหวังในอนาคต
โดปามีนเป็น 'สารเคมีแห่งความสุข' ของสมองหรือไม่?: คำอธิบายยอดนิยมนั้นทำให้เข้าใจผิด หลักฐานจำนวนมากบ่งชี้ว่าสัญญาณโดปามีนแบบเฟสิกส่วนใหญ่เกี่ยวข้องกับการเรียนรู้และการทำนายรางวัลมากกว่าประสบการณ์ความสุขเอง ซึ่งดูเหมือนจะเกี่ยวข้องกับระบบอื่นๆ