Metode Gradien Kebijakan
Metode gradien kebijakan secara langsung mengoptimalkan kebijakan yang diparameterisasi dengan menaikkan gradien dari imbalan yang diharapkan, daripada menurunkan kebijakan dari fungsi nilai.
Definition
Metode gradien kebijakan merepresentasikan kebijakan sebagai fungsi parameter yang dapat dibedakan dan memperbarui parameter tersebut ke arah yang meningkatkan imbalan kumulatif yang diharapkan, memperkirakan gradien yang diperlukan dari lintasan sampel interaksi agen dengan lingkungan.
Scope
Topik ini mencakup metode pembelajaran penguatan yang menyesuaikan parameter kebijakan secara langsung: teorema gradien kebijakan dan algoritma REINFORCE, penggunaan baseline dan estimasi keuntungan untuk mengurangi varians, metode aktor-kritik yang menggabungkan kebijakan yang dipelajari dengan fungsi nilai yang dipelajari, serta optimasi kebijakan trust-region dan proksimal modern. Ini membahas mengapa optimasi kebijakan langsung cocok untuk tindakan berkelanjutan dan kebijakan stokastik.
Core questions
- Bagaimana kebijakan dapat ditingkatkan secara langsung dengan peningkatan gradien?
- Apa yang diungkapkan oleh teorema gradien kebijakan?
- Bagaimana baseline dan kritik mengurangi varians estimasi gradien?
- Mengapa metode gradien kebijakan sangat cocok untuk ruang tindakan berkelanjutan?
Key theories
- Teorema gradien kebijakan
- Gradien dari imbalan yang diharapkan sehubungan dengan parameter kebijakan dapat ditulis sebagai ekspektasi atas lintasan, memungkinkannya untuk diperkirakan dari pengalaman yang diambil sampelnya tanpa membedakan lingkungan.
- Metode aktor-kritik
- Menggabungkan kebijakan yang ditingkatkan oleh peningkatan gradien dengan fungsi nilai yang dipelajari yang memberikan kritik varians rendah menghasilkan metode aktor-kritik yang belajar lebih stabil dan efisien daripada gradien kebijakan murni.
- Optimasi kebijakan dalam skala besar
- Pembelajaran berbasis kebijakan, sering dikombinasikan dengan estimasi nilai dan pencarian, mendasari keberhasilan skala besar seperti sistem bermain Go yang menguasai permainan melalui permainan mandiri.
Clinical relevance
Metode gradien kebijakan dan aktor-kritik merupakan pendekatan standar untuk pembelajaran penguatan dalam kontrol berkelanjutan, robotika, dan penyempurnaan model bahasa besar dari umpan balik manusia, karena metode ini mengoptimalkan kebijakan stokastik secara langsung dan menangani ruang tindakan yang sulit ditangani oleh metode berbasis nilai.
History
Algoritma REINFORCE Williams pada tahun 1992 memberikan cara langsung untuk memperkirakan gradien kebijakan, dan teorema gradien kebijakan pada akhir tahun 1990-an memberikan dasar yang kuat. Arsitektur aktor-kritik dan kemudian metode trust-region dan proksimal meningkatkan stabilitas, menjadikan optimasi kebijakan sebagai pusat pembelajaran penguatan skala besar modern.
Key figures
- Ronald Williams
- Richard Sutton
- David Silver
Related topics
Seminal works
- sutton2018
- silver2016
- williams1992
Frequently asked questions
- Mengapa mengoptimalkan kebijakan secara langsung daripada fungsi nilai?
- Optimasi kebijakan langsung secara alami menangani kebijakan stokastik dan ruang tindakan berkelanjutan, di mana mengekstraksi kebijakan dari fungsi nilai menjadi canggung. Ini juga memungkinkan peningkatan perilaku yang mulus dan bertahap, yang cocok untuk tugas kontrol dan robotika.
- Apa itu metode aktor-kritik?
- Metode aktor-kritik mempertahankan dua komponen yang dipelajari: seorang aktor, yaitu kebijakan yang memilih tindakan, dan seorang kritik, yaitu estimasi nilai yang menilai seberapa baik tindakan tersebut. Umpan balik kritik mengurangi varians pembaruan kebijakan, membuat pembelajaran lebih stabil.