ScholarGate
Asisten
Machine learningDeep learning / NLP / CV

Pembelajaran Penguatan yang Disesuaikan

Pembelajaran Penguatan yang Disesuaikan (Fine-Tuned Reinforcement Learning) mengadaptasi kebijakan atau model yang telah dilatih sebelumnya ke tugas baru atau tujuan perilaku menggunakan sinyal penguatan — termasuk umpan balik manusia — daripada melatih ulang dari awal. Dipopulerkan oleh RLHF, ini adalah teknik inti di balik penyelarasan model bahasa besar dan adaptasi agen RL mendalam ke lingkungan khusus dengan data tambahan minimal.

Buka di MethodMindSegeraVideoSegeraUnduh salindia

Baca metode selengkapnya

Khusus anggota

Masuk dengan akun gratis untuk membaca bagian ini.

Masuk

Peta metode

Lingkup metode terkait — pilih sebuah simpul untuk menjelajah.

Sumber

  1. Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., Schulman, J., Hilton, J., Kelton, F., Miller, L., Simens, M., Askell, A., Welinder, P., Christiano, P., Leike, J., & Lowe, R. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35, 27730–27744. link
  2. Christiano, P., Leike, J., Brown, T. B., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems, 30. link

Cara menyitasi halaman ini

ScholarGate. (2026, June 3). Fine-Tuned Reinforcement Learning (Policy Adaptation via Fine-Tuning). ScholarGate. https://scholargate.app/id/deep-learning/fine-tuned-reinforcement-learning

Metode yang mana?

Letakkan metode ini berdampingan dengan kerabat terdekatnya dan baca secara bersisian — pustaka menata bukunya di atas meja; pilihan ada di tangan Anda.

Bandingkan berdampingan

Dirujuk oleh

ScholarGateFine-Tuned Reinforcement Learning (Fine-Tuned Reinforcement Learning (Policy Adaptation via Fine-Tuning)). Diakses 2026-06-15 dari https://scholargate.app/id/deep-learning/fine-tuned-reinforcement-learning · Set data: https://doi.org/10.5281/zenodo.20539026