Ödül tahmin hatası nedir?

Bir sonucun sağladığı ödül ile beklenen ödül arasındaki farktır. Orta beyin dopamin nöronları bu farkı sinyallemektedir; beklenenden daha iyi sonuçlar için daha fazla, beklenenden daha kötü sonuçlar için ise daha az ateşleme yaparak, gelecekteki beklentileri güncelleyen bir öğrenme sinyali sağlamaktadır.

Dopamin beynin 'haz kimyasalı' mıdır?

Bu popüler tanım yanıltıcıdır. Birçok kanıt, fazik dopamin sinyallerinin öncelikli olarak öğrenme ve ödül tahminiyle ilişkili olduğunu, haz deneyiminin kendisiyle değil, ki bu durumun başka sistemleri içerdiği görülmektedir, göstermektedir.

Ödül ve Karar Verme

Ödül işleme ve değer temelli karar verme, beynin sonuçların değerini nasıl temsil ettiğini, eylemlerin sonuçlarından nasıl öğrendiğini ve seçenekler arasından nasıl seçim yaptığını ele almaktadır. Orta beyin dopamin nöronları, beklenen ve alınan ödül arasındaki tutarsızlıkları sinyallemekte; striatum, orbitofrontal ve ventromedial prefrontal korteksi içeren bir ağ ise davranışa rehberlik etmek üzere seçeneklerin değerini hesaplamakta ve karşılaştırmaktadır.

PaperMind ile konu bulYakındaMakale ve konu bul

Tools & resources

Slaytları indir

Learn & explore

VideoYakında

Tanım

Ödül ve karar verme, beynin sonuçlara nasıl değer atadığını, tahmin hatalarından öğrenme yoluyla beklentileri nasıl güncellediğini ve bu değer temsillerini rekabet eden eylemler arasından seçim yapmak için nasıl kullandığını inceleyen bir alandır.

Kapsam

Bu konu, bilişsel nörobilimde bir referans materyali olarak ödül ve değer temelli karar vermenin nörobilimini kapsamaktadır. Ödül tahmin hatası sinyallemesini, beynin değerleme sistemlerini, pekiştirmeli öğrenme çerçevelerini ve bu devrelerin motivasyon ile ödül bozukluklarıyla ilişkisini tanıtmaktadır. Mekanizmaları ve kanıtları açıklamakta olup, klinik bir rehberlik niteliği taşımamaktadır.

Temel sorular

Beyin, farklı sonuçların ve seçeneklerin değerini nasıl temsil eder?
Dopamin sinyalleri ve pekiştirmeli öğrenme mekanizmaları, beynin ödül ve cezadan öğrenmesini nasıl sağlar?
Karar verme sırasında hangi bölgeler değeri hesaplar, karşılaştırır ve değere göre hareket eder?

Anahtar kavramlar

Ödül tahmin hatası
Fazik dopamin sinyallemesi
Pekiştirmeli öğrenme ve zamansal fark öğrenmesi
Sübjektif ve beklenen değer
Orbitofrontal ve ventromedial prefrontal değerleme
Striatum ve eylem değeri
Keşif ve sömürü (exploitation)
Ödülle ilişkili bozukluklar

Temel kuramlar

Dopaminin ödül tahmin hatası hipotezi: Orta beyin dopamin nöronlarının fazik aktivitesi, alınan ve beklenen ödül arasındaki fark olan bir ödül tahmin hatasını kodlamaktadır. Bu, değer tahminlerini güncellemek için zamansal fark pekiştirmeli öğrenmede kullanılan türden bir öğretici sinyal sağlamaktadır.
Değer temelli karar verme çerçevesi: Seçim, seçeneklerin temsili, değerleme, eylem seçimi, sonuç değerlendirmesi ve öğrenme gibi aşamalara ayrılmaktadır. Bu durum, kararı tek bir süreç olarak ele almak yerine, her bir hesaplama adımına farklı sinir sistemlerinin eşleştirilmesine olanak tanımaktadır.

Mekanizmalar

Merkezi bir mekanizma, ödül tahmin hatasıdır: orta beyin dopamin nöronları, bir sonuç beklenenden daha iyi olduğunda ateşlemeyi artırmakta ve daha kötü olduğunda azaltmaktadır. Bu durum, zamansal fark pekiştirmeli öğrenmenin öğretici sinyaliyle (Schultz ve ark., 1997) örtüşen bir örüntüdür. Bu sinyallerin, hedef bölgelerde, özellikle de nöronal aktivitenin mevcut eylemlerin değerini yansıttığı striatumda (Samejima ve ark., 2005) değer temsillerini güncellediği düşünülmektedir. Orbitofrontal ve ventromedial prefrontal korteks, mal ve seçeneklerin değerini, seçimler arasında karşılaştırmaya olanak tanıyan ortak bir ölçekte temsil etmektedir (Wallis, 2007). Karar verme, her biri kısmen farklı devreler tarafından desteklenen (Rangel ve ark., 2008) hesaplama aşamaları dizisi olarak analiz edilebilir: temsil, değerleme, seçim ve öğrenme.

Klinik önem

Ödül ve değerleme devreleri, araştırmacıların ve klinisyenlerin motivasyonu ve bir dizi durumu anlamalarında rol oynamaktadır. Bu durumlar arasında bağımlılık, depresyon ve dopaminerjik hastalık ve tedavinin etkileri bulunmaktadır; Parkinson hastalığında değişmiş pekiştirmeli öğrenme ile gösterildiği gibi (Frank ve ark., 2004). Bu madde, ödül ve karar mekanizmalarına yönelik eğitici bir referans olup, herhangi bir bireyin teşhisi veya tedavisi için bir temel oluşturmamaktadır.

Kanıt ve kılavuzlar

Bu açıklama, hayvanlarda tek birim kaydı, insan nörogörüntülemesi, hesaplamalı modelleme ve dopaminerjik bozuklukları olan hastalar üzerinde yapılan çalışmalar (Schultz ve ark., 1997; Samejima ve ark., 2005; Frank ve ark., 2004) gibi kaynaklardan elde edilen yakınsak kanıtlara dayanmaktadır. Bu kanıtlar, değerleme ve seçim üzerine yapılan başlıca derlemelerde (Rangel ve ark., 2008; Wallis, 2007) sentezlenmiştir.

Tarihçe

1950'lerde yapılan erken elektriksel kendi kendine uyarım deneyleri, hayvanların elde etmek için çaba göstereceği beyin bölgelerini tanımlayarak bir ödül sistemi fikrini ortaya koymuştur. 1980'ler ve 1990'lar boyunca, Schultz ve meslektaşları tarafından orta beyin dopamin nöronlarının kayıtları, Sutton ve Barto tarafından geliştirilen ve Montague ve Dayan tarafından uygulanan pekiştirmeli öğrenme kuramı ile yorumlanarak, dopamini bir zevk sinyali yerine bir tahmin hatası sinyali olarak yeniden tanımlamıştır. Nöroekonominin daha sonraki ortaya çıkışı, beynin seçim sırasında değeri nasıl hesapladığını ve karşılaştırdığını incelemek için ekonomik değer kuramlarını nörobilimle bütünleştirmiştir.

Tartışmalar

Dopamin tam olarak neyi kodlar?: Tahmin hatası açıklaması etkili olmakla birlikte, fazik dopamin sinyallerinin kesinlikle bir ödül tahmin hatasını mı kodladığı, yoksa aynı zamanda belirginlik (salience), yenilik veya motivasyonel canlılığı mı ilettiği ve tonik ile fazik sinyallerin işlevsel olarak nasıl farklılaştığı konusunda tartışmalar devam etmektedir.

Öne çıkan isimler

Wolfram Schultz
Peter Dayan
P. Read Montague
Antonio Rangel
Michael Frank

İlgili konular

Temel eserler

schultz-1997
rangel-2008
wallis-2007

Sıkça sorulan sorular

Ödül tahmin hatası nedir?: Bir sonucun sağladığı ödül ile beklenen ödül arasındaki farktır. Orta beyin dopamin nöronları bu farkı sinyallemektedir; beklenenden daha iyi sonuçlar için daha fazla, beklenenden daha kötü sonuçlar için ise daha az ateşleme yaparak, gelecekteki beklentileri güncelleyen bir öğrenme sinyali sağlamaktadır.
Dopamin beynin 'haz kimyasalı' mıdır?: Bu popüler tanım yanıltıcıdır. Birçok kanıt, fazik dopamin sinyallerinin öncelikli olarak öğrenme ve ödül tahminiyle ilişkili olduğunu, haz deneyiminin kendisiyle değil, ki bu durumun başka sistemleri içerdiği görülmektedir, göstermektedir.