Lỗi dự đoán phần thưởng là gì?

Đó là sự khác biệt giữa phần thưởng mà một kết quả mang lại và phần thưởng được mong đợi. Các neuron dopamine ở não giữa báo hiệu sự khác biệt này, hoạt động nhiều hơn đối với các kết quả tốt hơn mong đợi và ít hơn đối với các kết quả tệ hơn mong đợi, điều này cung cấp một tín hiệu học hỏi để cập nhật các kỳ vọng trong tương lai.

Dopamine có phải là 'chất hóa học khoái cảm' của não không?

Mô tả phổ biến đó gây hiểu lầm. Nhiều bằng chứng cho thấy tín hiệu dopamine theo pha chủ yếu liên quan đến việc học hỏi và dự đoán phần thưởng hơn là trải nghiệm khoái cảm, điều này dường như liên quan đến các hệ thống khác.

Phần thưởng và Ra quyết định

Xử lý phần thưởng và ra quyết định dựa trên giá trị liên quan đến cách bộ não biểu thị giá trị của các kết quả, học hỏi từ hậu quả của hành động và lựa chọn giữa các phương án. Các neuron dopamine ở não giữa báo hiệu sự khác biệt giữa phần thưởng mong đợi và phần thưởng nhận được, và một mạng lưới bao gồm thể vân, vỏ não trước trán ổ mắt và vỏ não trước trán bụng giữa tính toán và so sánh giá trị của các lựa chọn để định hướng hành vi.

Tìm chủ đề với PaperMindSắp ra mắtFind papers & topics

Tools & resources

Tải xuống bản trình chiếu

Learn & explore

VideoSắp ra mắt

Definition

Phần thưởng và ra quyết định là nghiên cứu về cách bộ não gán giá trị cho các kết quả, cập nhật kỳ vọng thông qua việc học từ các lỗi dự đoán và sử dụng các biểu diễn giá trị này để lựa chọn giữa các hành động cạnh tranh.

Scope

Chủ đề này bao gồm khoa học thần kinh về phần thưởng và ra quyết định dựa trên giá trị như tài liệu tham khảo trong khoa học thần kinh nhận thức. Nó giới thiệu tín hiệu lỗi dự đoán phần thưởng, các hệ thống định giá của não, các khuôn khổ học tăng cường và sự liên quan của các mạch này đến động lực và các rối loạn phần thưởng. Nó giải thích các cơ chế và bằng chứng và không phải là hướng dẫn lâm sàng.

Core questions

Bộ não biểu thị giá trị của các kết quả và lựa chọn khác nhau như thế nào?
Các tín hiệu dopamine và cơ chế học tăng cường cho phép bộ não học hỏi từ phần thưởng và hình phạt như thế nào?
Những vùng nào tính toán, so sánh và hành động dựa trên giá trị trong quá trình ra quyết định?

Key concepts

Lỗi dự đoán phần thưởng
Tín hiệu dopamine theo pha
Học tăng cường và học chênh lệch thời gian
Giá trị chủ quan và giá trị mong đợi
Định giá vỏ não trước trán ổ mắt và vỏ não trước trán bụng giữa
Thể vân và giá trị hành động
Khám phá so với khai thác
Các rối loạn liên quan đến phần thưởng

Key theories

Giả thuyết lỗi dự đoán phần thưởng của dopamine: Hoạt động theo pha của các neuron dopamine ở não giữa mã hóa một lỗi dự đoán phần thưởng, sự khác biệt giữa phần thưởng nhận được và phần thưởng mong đợi, cung cấp một tín hiệu giảng dạy thuộc loại được sử dụng trong học tăng cường chênh lệch thời gian để cập nhật ước tính giá trị.
Khuôn khổ ra quyết định dựa trên giá trị: Lựa chọn được phân tách thành các giai đoạn, biểu diễn các lựa chọn, định giá, lựa chọn hành động, đánh giá kết quả và học hỏi, cho phép các hệ thống thần kinh riêng biệt được ánh xạ vào mỗi bước tính toán thay vì coi quyết định là một quá trình duy nhất.

Mechanisms

Một cơ chế trung tâm là lỗi dự đoán phần thưởng: các neuron dopamine ở não giữa tăng cường hoạt động khi một kết quả tốt hơn mong đợi và giảm hoạt động khi nó tệ hơn, một mô hình phù hợp với tín hiệu giảng dạy của học tăng cường chênh lệch thời gian (Schultz et al., 1997). Các tín hiệu này được cho là cập nhật các biểu diễn giá trị ở các vùng mục tiêu, đặc biệt là thể vân, nơi hoạt động thần kinh phản ánh giá trị của các hành động có sẵn (Samejima et al., 2005). Vỏ não trước trán ổ mắt và vỏ não trước trán bụng giữa biểu thị giá trị của hàng hóa và các lựa chọn trên một thang đo chung cho phép so sánh giữa các lựa chọn (Wallis, 2007). Việc ra quyết định có thể được phân tích như một chuỗi các giai đoạn tính toán, biểu diễn, định giá, lựa chọn và học hỏi, mỗi giai đoạn được hỗ trợ bởi các mạch phần nào khác biệt (Rangel et al., 2008).

Clinical relevance

Các mạch phần thưởng và định giá có liên quan đến cách các nhà nghiên cứu và bác sĩ lâm sàng hiểu về động lực và một loạt các tình trạng, bao gồm nghiện, trầm cảm và ảnh hưởng của bệnh và điều trị liên quan đến dopamine, như được thể hiện qua việc học tăng cường bị thay đổi trong bệnh Parkinson (Frank et al., 2004). Mục này là một tài liệu tham khảo giáo dục về các cơ chế phần thưởng và quyết định và không phải là cơ sở để chẩn đoán hoặc điều trị bất kỳ cá nhân nào.

Evidence & guidelines

Giải thích này dựa trên bằng chứng hội tụ từ ghi điện đơn vị ở động vật, hình ảnh thần kinh ở người, mô hình hóa tính toán và các nghiên cứu về bệnh nhân mắc các rối loạn dopaminergic (Schultz et al., 1997; Samejima et al., 2005; Frank et al., 2004), được tổng hợp trong các đánh giá lớn về định giá và lựa chọn (Rangel et al., 2008; Wallis, 2007).

History

Các thí nghiệm tự kích thích điện ban đầu vào những năm 1950 đã xác định các vùng não mà động vật sẽ làm việc để có được sự kích hoạt, thiết lập ý tưởng về một hệ thống phần thưởng. Trong suốt những năm 1980 và 1990, các bản ghi của các neuron dopamine ở não giữa của Schultz và các đồng nghiệp, được giải thích bằng lý thuyết học tăng cường do Sutton và Barto phát triển và được Montague và Dayan áp dụng, đã định nghĩa lại dopamine như một tín hiệu lỗi dự đoán chứ không phải là tín hiệu khoái cảm. Sự xuất hiện sau đó của kinh tế học thần kinh đã tích hợp các lý thuyết kinh tế về giá trị với khoa học thần kinh để nghiên cứu cách bộ não tính toán và so sánh giá trị trong quá trình lựa chọn.

Debates

Dopamine mã hóa chính xác điều gì?: Giải thích về lỗi dự đoán có ảnh hưởng lớn, nhưng cuộc tranh luận vẫn tiếp tục về việc liệu tín hiệu dopamine theo pha có chỉ báo hiệu lỗi dự đoán phần thưởng hay còn truyền tải sự nổi bật, tính mới lạ hoặc sự mạnh mẽ của động lực, và cách các tín hiệu tonic và phasic khác nhau về chức năng.

Key figures

Wolfram Schultz
Peter Dayan
P. Read Montague
Antonio Rangel
Michael Frank

Seminal works

schultz-1997
rangel-2008
wallis-2007

Frequently asked questions

Lỗi dự đoán phần thưởng là gì?: Đó là sự khác biệt giữa phần thưởng mà một kết quả mang lại và phần thưởng được mong đợi. Các neuron dopamine ở não giữa báo hiệu sự khác biệt này, hoạt động nhiều hơn đối với các kết quả tốt hơn mong đợi và ít hơn đối với các kết quả tệ hơn mong đợi, điều này cung cấp một tín hiệu học hỏi để cập nhật các kỳ vọng trong tương lai.
Dopamine có phải là 'chất hóa học khoái cảm' của não không?: Mô tả phổ biến đó gây hiểu lầm. Nhiều bằng chứng cho thấy tín hiệu dopamine theo pha chủ yếu liên quan đến việc học hỏi và dự đoán phần thưởng hơn là trải nghiệm khoái cảm, điều này dường như liên quan đến các hệ thống khác.