Pekiştirmeli öğrenme, denetimli öğrenmeden nasıl farklıdır?

Denetimli öğrenmeye, her girdi için doğru çıktı bildirilmektedir. Pekiştirmeli öğrenme ajanı ise yalnızca eylemlerinin sonuçlarını değerlendiren bir ödül sinyali almaktadır, deneme yanılma yoluyla iyi davranışları keşfetmeli ve onları kazandıran eylemlerden çok sonra gelen ödüllerle başa çıkmak zorundadır.

Keşif-sömürü ikilemi nedir?

Bir ajan, iyi ödül verdiği bilinen eylemleri sömürmek ile daha da iyi olabilecek denenmemiş eylemleri keşfetmek arasında seçim yapmalıdır. Çok az keşif, suboptimal bir stratejiye kilitlenmeye yol açabilirken, çok fazla keşif fırsatları israf etmektedir; bu nedenle ikisini dengelemek pekiştirmeli öğrenmenin merkezinde yer almaktadır.

Pekiştirmeli Öğrenme

Pekiştirmeli öğrenme, bir ajanı deneme yanılma yoluyla karar dizileri almaya, bir çevreyle etkileşim yoluyla kümülatif ödülü maksimize etmeye eğitmektedir.

PaperMind ile konu bulYakındaMakale ve konu bul

Tools & resources

Slaytları indir

Learn & explore

VideoYakında

Tanım

Pekiştirmeli öğrenme, doğru davranışın etiketlenmiş örneklerinden ziyade, ajanın kendi eylemlerinin sonuçlarından öğrenerek, beklenen kümülatif ödülü maksimize eden, durumlardan eylemlere bir eşleme olan bir politika öğrenme problemidir.

Kapsam

Bu alan, eyleme geçmeyi öğrenmeyi kapsamaktadır: durumlar, eylemler, ödüller ve geçişlerden oluşan Markov karar süreci çerçevesi; değer fonksiyonları ve Bellman denklemleri; zamansal fark öğrenimi (temporal-difference learning) ve Q-öğrenme (Q-learning) gibi değer tabanlı yöntemler; bir politikayı doğrudan optimize eden politika gradyanı yöntemleri; ve bu fikirlerin derin sinir ağları ile birleşimi. Keşif-sömürü ikilemini ve gecikmiş ödül zorluğunu ele almaktadır.

Alt konular

Temel sorular

Bir ajan, yalnızca ödül sinyallerinden iyi davranışları nasıl öğrenebilir?
Uzun vadeli değer ve anlık ödül, Bellman denklemleri aracılığıyla nasıl ilişkilidir?
Bir ajan, yeni eylemleri keşfetmeyi bilinen iyi eylemleri sömürmeye karşı nasıl dengelemelidir?
Daha sonraki ödüller için önceki eylemlere nasıl pay atfedilir?

Temel kuramlar

Markov karar süreçleri ve değer fonksiyonları: Etkileşim, bir Markov karar süreci olarak modellenmekte ve değer fonksiyonları, beklenen gelecekteki ödülü özetleyerek, neredeyse tüm pekiştirmeli öğrenme algoritmalarının temelini oluşturan Bellman denklemlerini karşılamaktadır.
Zamansal fark öğrenimi: Ajanlar, önyükleme (bootstrapping) yoluyla değer tahminlerini öğrenebilmekte, tahminleri daha sonraki tahminlere ve gözlemlenen ödüle doğru güncelleyebilmektedir; bu da eksik bölümlerden ve çevrimiçi deneyimden öğrenmeyi mümkün kılmaktadır.
Derin pekiştirmeli öğrenme: Değer fonksiyonlarını veya politikaları yaklaştırmak için derin sinir ağlarının kullanılması, pekiştirmeli öğrenmenin yüksek boyutlu girdilere ölçeklenmesini sağlamaktadır; bu durum, Atari oyunlarını ve Go oyununu oynamayı öğrenen ajanlar tarafından gösterilmiştir.

Klinik önem

Pekiştirmeli öğrenme, belirsizlik altında sıralı karar verme süreçlerini ele almakta ve oyun oynama, robotik, tavsiye sistemleri ve kontrol alanlarında ilerlemelere yol açmıştır; ayrıca geri bildirimden öğrenme yoluyla büyük dil modellerinin hizalanmasını sağlamıştır. Deneme yanılma doğası ve ödülü belirlemenin zorluğu, güvenli ve örneklem açısından verimli öğrenmeyi aktif endişe konuları haline getirmektedir.

Tarihçe

Pekiştirmeli öğrenme, optimal kontrol, dinamik programlama ve hayvan öğrenimi alanlarındaki fikirleri birleştirmiştir. Zamansal fark öğrenimi ve Q-öğrenme 1980'lerde ve 1990'ların başlarında ortaya çıkmış, Sutton ve Barto'nun ders kitabı alanı kodifiye etmiştir. 2010'larda derin öğrenme ile birleşimi, Atari oyunlarında insan seviyesinde ve Go'da insanüstü seviyede oynayan ajanlar üretmiştir.

Tartışmalar

Örneklem verimliliği ve ödül tasarımı: Pekiştirmeli öğrenme, büyük miktarda etkileşim gerektirebilmekte ve ödülün nasıl belirlendiğine karşı hassas olabilmektedir; bu da onu nasıl daha veri verimli hale getirebileceğimiz ve ajanların yanlış belirlenmiş ödülleri sömürmesini nasıl önleyebileceğimiz konusunda tartışmalara yol açmaktadır.

Öne çıkan isimler

Richard Sutton
Andrew Barto
Christopher Watkins
David Silver

İlgili konular

Temel eserler

sutton2018
mnih2015
silver2016

Sıkça sorulan sorular

Pekiştirmeli öğrenme, denetimli öğrenmeden nasıl farklıdır?: Denetimli öğrenmeye, her girdi için doğru çıktı bildirilmektedir. Pekiştirmeli öğrenme ajanı ise yalnızca eylemlerinin sonuçlarını değerlendiren bir ödül sinyali almaktadır, deneme yanılma yoluyla iyi davranışları keşfetmeli ve onları kazandıran eylemlerden çok sonra gelen ödüllerle başa çıkmak zorundadır.
Keşif-sömürü ikilemi nedir?: Bir ajan, iyi ödül verdiği bilinen eylemleri sömürmek ile daha da iyi olabilecek denenmemiş eylemleri keşfetmek arasında seçim yapmalıdır. Çok az keşif, suboptimal bir stratejiye kilitlenmeye yol açabilirken, çok fazla keşif fırsatları israf etmektedir; bu nedenle ikisini dengelemek pekiştirmeli öğrenmenin merkezinde yer almaktadır.