Reinforcement Learning Semi-Terawasi
Reinforcement learning semi-terawasi (SSRL) mengombinasikan pembelajaran penguatan standar — di mana agen belajar dari sinyal imbalan yang jarang — dengan teknik semi-terawasi yang mengekstrak struktur dari interaksi lingkungan tanpa label. Tujuannya adalah untuk meningkatkan efisiensi sampel dan generalisasi ketika umpan balik imbalan mahal, tertunda, atau hanya tersedia untuk sebagian kecil dari pengalaman agen.
Baca metode selengkapnya
Masuk dengan akun gratis untuk membaca bagian ini.
Peta metode
Lingkup metode terkait — pilih sebuah simpul untuk menjelajah.
Sumber
- Zhan, X., Zhu, X., & Shi, H. (2022). Deepthermal: Combustion optimization for thermal power generating units using offline reinforcement learning. Proceedings of the AAAI Conference on Artificial Intelligence, 36(4), 4680–4688. link ↗
- Laskin, M., Srinivas, A., & Abbeel, P. (2020). CURL: Contrastive Unsupervised Representations for Reinforcement Learning. Proceedings of the 37th International Conference on Machine Learning (ICML), PMLR 119, 5639–5650. link ↗
Cara menyitasi halaman ini
ScholarGate. (2026, June 3). Semi-supervised Reinforcement Learning (SSRL). ScholarGate. https://scholargate.app/id/deep-learning/semi-supervised-reinforcement-learning
Metode yang mana?
Letakkan metode ini berdampingan dengan kerabat terdekatnya dan baca secara bersisian — pustaka menata bukunya di atas meja; pilihan ada di tangan Anda.
- Pembelajaran Penguatan Adaptif DomainPembelajaran Mendalam↔ bandingkan
- Pembelajaran PenguatanPembelajaran Mendalam↔ bandingkan
- Reinforcement Learning MandiriPembelajaran Mendalam↔ bandingkan
- Transformer Semi-terawasiPembelajaran Mendalam↔ bandingkan
- Pembelajaran Transfer dengan Pembelajaran PenguatanPembelajaran Mendalam↔ bandingkan
- Pembelajaran Penguatan Berawasi LemahPembelajaran Mendalam↔ bandingkan
Dirujuk oleh
Menemukan masalah di halaman ini? Laporkan atau usulkan perbaikan →