Pembelajaran Penguatan yang Disesuaikan
Pembelajaran Penguatan yang Disesuaikan (Fine-Tuned Reinforcement Learning) mengadaptasi kebijakan atau model yang telah dilatih sebelumnya ke tugas baru atau tujuan perilaku menggunakan sinyal penguatan — termasuk umpan balik manusia — daripada melatih ulang dari awal. Dipopulerkan oleh RLHF, ini adalah teknik inti di balik penyelarasan model bahasa besar dan adaptasi agen RL mendalam ke lingkungan khusus dengan data tambahan minimal.
Baca metode selengkapnya
Masuk dengan akun gratis untuk membaca bagian ini.
Peta metode
Lingkup metode terkait — pilih sebuah simpul untuk menjelajah.
Sumber
- Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., Schulman, J., Hilton, J., Kelton, F., Miller, L., Simens, M., Askell, A., Welinder, P., Christiano, P., Leike, J., & Lowe, R. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35, 27730–27744. link ↗
- Christiano, P., Leike, J., Brown, T. B., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems, 30. link ↗
Cara menyitasi halaman ini
ScholarGate. (2026, June 3). Fine-Tuned Reinforcement Learning (Policy Adaptation via Fine-Tuning). ScholarGate. https://scholargate.app/id/deep-learning/fine-tuned-reinforcement-learning
Metode yang mana?
Letakkan metode ini berdampingan dengan kerabat terdekatnya dan baca secara bersisian — pustaka menata bukunya di atas meja; pilihan ada di tangan Anda.
- Klasifikasi Berbasis BERT yang Di-fine-tunePembelajaran Mendalam↔ bandingkan
- Transformer yang Disesuaikan HalusPembelajaran Mendalam↔ bandingkan
- Pembelajaran PenguatanPembelajaran Mendalam↔ bandingkan
- Reinforcement Learning MandiriPembelajaran Mendalam↔ bandingkan
- Pembelajaran Transfer dengan Pembelajaran PenguatanPembelajaran Mendalam↔ bandingkan
Dirujuk oleh
Menemukan masalah di halaman ini? Laporkan atau usulkan perbaikan →