Machine learningDeep learning / NLP / CV

Reinforcement Learning Semi-Terawasi

Reinforcement learning semi-terawasi (SSRL) mengombinasikan pembelajaran penguatan standar — di mana agen belajar dari sinyal imbalan yang jarang — dengan teknik semi-terawasi yang mengekstrak struktur dari interaksi lingkungan tanpa label. Tujuannya adalah untuk meningkatkan efisiensi sampel dan generalisasi ketika umpan balik imbalan mahal, tertunda, atau hanya tersedia untuk sebagian kecil dari pengalaman agen.

Buka di MethodMindSegeraVideoSegeraUnduh salindia

Baca metode selengkapnya

Khusus anggota

Masuk dengan akun gratis untuk membaca bagian ini.

Masuk

Peta metode

Lingkup metode terkait — pilih sebuah simpul untuk menjelajah.

Reinforcement Learning Semi-Terawasi

Pembelajaran Penguatan A…Pembelajaran Penguatan Reinforcement Learning M…Transformer Semi-terawasi Pembelajaran Transfer de…Pembelajaran Penguatan B…

Sumber

Zhan, X., Zhu, X., & Shi, H. (2022). Deepthermal: Combustion optimization for thermal power generating units using offline reinforcement learning. Proceedings of the AAAI Conference on Artificial Intelligence, 36(4), 4680–4688. link ↗
Laskin, M., Srinivas, A., & Abbeel, P. (2020). CURL: Contrastive Unsupervised Representations for Reinforcement Learning. Proceedings of the 37th International Conference on Machine Learning (ICML), PMLR 119, 5639–5650. link ↗

Cara menyitasi halaman ini

ScholarGate. (2026, June 3). Semi-supervised Reinforcement Learning (SSRL). ScholarGate. https://scholargate.app/id/deep-learning/semi-supervised-reinforcement-learning

Metode yang mana?

Letakkan metode ini berdampingan dengan kerabat terdekatnya dan baca secara bersisian — pustaka menata bukunya di atas meja; pilihan ada di tangan Anda.

Pembelajaran Penguatan Adaptif DomainPembelajaran Mendalam↔ bandingkan
Pembelajaran PenguatanPembelajaran Mendalam↔ bandingkan
Reinforcement Learning MandiriPembelajaran Mendalam↔ bandingkan
Transformer Semi-terawasiPembelajaran Mendalam↔ bandingkan
Pembelajaran Transfer dengan Pembelajaran PenguatanPembelajaran Mendalam↔ bandingkan
Pembelajaran Penguatan Berawasi LemahPembelajaran Mendalam↔ bandingkan

Bandingkan berdampingan →

Dirujuk oleh

Reinforcement Learning Mandiri Pembelajaran Penguatan Berawasi Lemah

Menemukan masalah di halaman ini? Laporkan atau usulkan perbaikan →