Zamansal fark öğrenmesi neyden önyükleme (bootstrap) yapmaktadır?

Mevcut durumun değerini, gözlemlenen ödül ve bir sonraki durumun kendi tahmini değerini kullanarak güncellemektedir. Nihai sonucu beklemek yerine kısmen başka bir tahmine dayandığı için çevrimiçi ve eksik bölümlerden öğrenebilmektedir.

Q-öğrenme neden politika dışı (off-policy) olarak adlandırılmaktadır?

Q-öğrenme, ajan deneyim toplamak için farklı, keşfedici bir politika izlerken bile optimal politikanın değerini öğrenmektedir. Veri toplamak için kullanılan davranış ile değerlendirilen politika farklılık gösterebilmektedir; politika dışı (off-policy) terimi de bunu ifade etmektedir.

Değer Tabanlı Yöntemler

Değer tabanlı yöntemler, durumların ve eylemlerin ne kadar iyi olduğunu öğrenmekte, ardından iyi bir politika elde etmek için bu tahminlere göre açgözlü bir şekilde hareket etmektedir.

PaperMind ile konu bulYakındaMakale ve konu bul

Tools & resources

Slaytları indir

Learn & explore

VideoYakında

Tanım

Değer tabanlı yöntemler, durumların veya durum-eylem çiftlerinin beklenen getirilerini tahmin etmekte ve en yüksek tahmini değere sahip eylemleri seçerek bir politika türetmektedir; bu tahminleri deneyimlerden kademeli olarak öğrenmekte, genellikle bir tahmini daha sonraki, daha bilgili bir tahmine doğru ayarlayan zamansal fark güncellemeleri aracılığıyla gerçekleştirmektedirler.

Kapsam

Bu konu, değer fonksiyonlarına odaklanan pekiştirmeli öğrenme algoritmalarını kapsamaktadır: tamamlanmış bölümlerden Monte Carlo tahmini, sonraki tahminlerden önyükleme (bootstrapping) yapan zamansal fark öğrenmesi ve Sarsa ile Q-öğrenme kontrol algoritmaları. Ayrıca, politika içi (on-policy) ve politika dışı (off-policy) öğrenme, epsilon-açgözlü (epsilon-greedy) gibi stratejiler aracılığıyla keşif ve durumların sayılamayacak kadar çok olduğu durumlarda fonksiyon yaklaşımının kullanımı ele alınmaktadır.

Temel sorular

Eylem değerleri deneyimlerden nasıl öğrenilmektedir?
Zamansal fark öğrenmesi, örneklemeyi önyükleme (bootstrapping) ile nasıl birleştirmektedir?
Politika içi (on-policy) ve politika dışı (off-policy) öğrenme arasındaki fark nedir?
Değer tahminlerine göre açgözlü bir şekilde hareket edilirken keşif nasıl ele alınmaktadır?

Temel kuramlar

Zamansal fark öğrenmesi: Zamansal fark yöntemleri, gözlemlenen ödüle ve bir sonraki durumun indirgenmiş tahminine doğru bir değer tahminini güncellemekte, çevrenin bir modeli olmadan eksik bölümlerden çevrimiçi olarak öğrenmektedir.
Q-öğrenme: Q-öğrenme, her durumdaki en iyi eylemin değerini tahmin etmekte ve deneyim toplamak için kullanılan politikadan bağımsız olarak optimal eylem-değer fonksiyonuna yakınsamaktadır, bu da onu temel bir politika dışı yöntem haline getirmektedir.
Derin ağlarla değer yaklaşımı: Eylem-değer fonksiyonunu derin bir ağ ile temsil etmek, değer tabanlı yöntemlerin ham pikseller gibi yüksek boyutlu girdileri ele almasına olanak tanımaktadır; tıpkı birçok Atari oyununu oynamayı öğrenen derin Q-ağında (deep Q-network) olduğu gibi.

Klinik önem

Değer tabanlı yöntemler, en yaygın kullanılan pekiştirmeli öğrenme algoritmaları arasında yer almaktadır ve derin ağlarla birleştirilen Q-öğrenme, yüksek boyutlu duyusal girdiden doğrudan insan seviyesinde performans gösteren ilk ajanları üretmiştir; bu da değer tahmininin karmaşık görevlere nasıl ölçeklenebildiğini ortaya koymaktadır.

Tarihçe

Sutton, 1988'de zamansal fark öğrenmesini tanıtmış, Watkins'in 1989'daki Q-öğrenmesi ise yakınsak bir politika dışı kontrol yöntemi sunmuştur. Q-öğrenmenin 2015'teki derin Q-ağı (deep Q-network) ile derin ağlarla birleştirilmesi, değer tabanlı pekiştirmeli öğrenmeyi yüksek boyutlu problemlere taşımış ve modern derin pekiştirmeli öğrenme çağını başlatmıştır.

Öne çıkan isimler

Richard Sutton
Christopher Watkins
Volodymyr Mnih

İlgili konular

Temel eserler

sutton2018
mnih2015
watkins1992

Sıkça sorulan sorular

Zamansal fark öğrenmesi neyden önyükleme (bootstrap) yapmaktadır?: Mevcut durumun değerini, gözlemlenen ödül ve bir sonraki durumun kendi tahmini değerini kullanarak güncellemektedir. Nihai sonucu beklemek yerine kısmen başka bir tahmine dayandığı için çevrimiçi ve eksik bölümlerden öğrenebilmektedir.
Q-öğrenme neden politika dışı (off-policy) olarak adlandırılmaktadır?: Q-öğrenme, ajan deneyim toplamak için farklı, keşfedici bir politika izlerken bile optimal politikanın değerini öğrenmektedir. Veri toplamak için kullanılan davranış ile değerlendirilen politika farklılık gösterebilmektedir; politika dışı (off-policy) terimi de bunu ifade etmektedir.