Pembelajaran Penguatan
Pembelajaran penguatan melatih agen untuk membuat urutan keputusan melalui coba-coba, memaksimalkan imbalan kumulatif melalui interaksi dengan suatu lingkungan.
Definition
Pembelajaran penguatan adalah masalah mempelajari suatu kebijakan, pemetaan dari situasi ke tindakan, yang memaksimalkan imbalan kumulatif yang diharapkan, di mana agen belajar dari konsekuensi tindakannya sendiri daripada dari contoh perilaku benar yang berlabel.
Scope
Area ini mencakup pembelajaran untuk bertindak: kerangka proses keputusan Markov tentang keadaan, tindakan, imbalan, dan transisi; fungsi nilai dan persamaan Bellman; metode berbasis nilai seperti pembelajaran selisih temporal dan Q-learning; metode gradien kebijakan yang mengoptimalkan kebijakan secara langsung; dan kombinasi ide-ide ini dengan jaringan saraf tiruan (deep neural networks). Ini membahas pertukaran eksplorasi-eksploitasi dan tantangan imbalan yang tertunda.
Sub-topics
Core questions
- Bagaimana agen dapat mempelajari perilaku yang baik hanya dari sinyal imbalan?
- Bagaimana nilai jangka panjang dan imbalan langsung saling terkait melalui persamaan Bellman?
- Bagaimana agen harus menyeimbangkan eksplorasi tindakan baru dengan eksploitasi tindakan baik yang sudah diketahui?
- Bagaimana kredit diberikan pada tindakan sebelumnya untuk imbalan di kemudian hari?
Key theories
- Proses keputusan Markov dan fungsi nilai
- Interaksi dimodelkan sebagai proses keputusan Markov, dan fungsi nilai merangkum imbalan masa depan yang diharapkan, memenuhi persamaan Bellman yang mendasari hampir semua algoritma pembelajaran penguatan.
- Pembelajaran selisih temporal
- Agen dapat mempelajari estimasi nilai dengan bootstrapping, memperbarui prediksi menuju prediksi selanjutnya ditambah imbalan yang diamati, yang memungkinkan pembelajaran dari episode yang tidak lengkap dan pengalaman daring.
- Pembelajaran penguatan mendalam
- Menggunakan jaringan saraf tiruan (deep neural networks) untuk memperkirakan fungsi nilai atau kebijakan memungkinkan pembelajaran penguatan berskala ke input berdimensi tinggi, seperti yang ditunjukkan oleh agen yang belajar bermain game Atari dan permainan Go.
Clinical relevance
Pembelajaran penguatan membahas pengambilan keputusan sekuensial dalam ketidakpastian dan telah mendorong kemajuan dalam bermain game, robotika, rekomendasi, dan kontrol, serta penyelarasan model bahasa besar melalui pembelajaran dari umpan balik; sifat coba-cobanya dan kesulitan dalam menentukan imbalan menjadikan pembelajaran yang aman dan efisien dalam sampel sebagai perhatian aktif.
History
Pembelajaran penguatan menyatukan ide-ide dari kontrol optimal, pemrograman dinamis, dan pembelajaran hewan. Pembelajaran selisih temporal dan Q-learning muncul pada tahun 1980-an dan awal 1990-an, dan buku teks Sutton dan Barto mengkodifikasi bidang ini. Kombinasi tahun 2010-an dengan pembelajaran mendalam menghasilkan agen yang mencapai tingkat permainan manusia pada game Atari dan tingkat permainan super-manusia pada Go.
Debates
- Efisiensi sampel dan desain imbalan
- Pembelajaran penguatan dapat membutuhkan interaksi yang sangat besar dan sensitif terhadap bagaimana imbalan ditentukan, memicu perdebatan tentang bagaimana membuatnya lebih efisien data dan bagaimana menghindari agen mengeksploitasi imbalan yang salah spesifikasi.
Key figures
- Richard Sutton
- Andrew Barto
- Christopher Watkins
- David Silver
Related topics
Seminal works
- sutton2018
- mnih2015
- silver2016
Frequently asked questions
- Bagaimana pembelajaran penguatan berbeda dari pembelajaran terawasi?
- Pembelajaran terawasi diberitahu keluaran yang benar untuk setiap masukan. Agen pembelajaran penguatan hanya diberi sinyal imbalan yang mengevaluasi hasil tindakannya, harus menemukan perilaku yang baik melalui coba-coba, dan harus mengatasi imbalan yang datang jauh setelah tindakan yang menghasilkannya.
- Apa itu pertukaran eksplorasi-eksploitasi?
- Agen harus memilih antara mengeksploitasi tindakan yang diketahui memberikan imbalan baik dan mengeksplorasi tindakan yang belum dicoba yang mungkin lebih baik. Terlalu sedikit eksplorasi dapat mengunci strategi suboptimal, sementara terlalu banyak menyia-nyiakan peluang, sehingga menyeimbangkan keduanya adalah inti dari pembelajaran penguatan.