Machine learningDeep learning / NLP / CV

Pembelajaran Penguatan yang Disesuaikan

Pembelajaran Penguatan yang Disesuaikan (Fine-Tuned Reinforcement Learning) mengadaptasi kebijakan atau model yang telah dilatih sebelumnya ke tugas baru atau tujuan perilaku menggunakan sinyal penguatan — termasuk umpan balik manusia — daripada melatih ulang dari awal. Dipopulerkan oleh RLHF, ini adalah teknik inti di balik penyelarasan model bahasa besar dan adaptasi agen RL mendalam ke lingkungan khusus dengan data tambahan minimal.

Buka di MethodMindSegeraVideoSegeraUnduh salindia

Baca metode selengkapnya

Khusus anggota

Masuk dengan akun gratis untuk membaca bagian ini.

Masuk

Peta metode

Lingkup metode terkait — pilih sebuah simpul untuk menjelajah.

Pembelajaran Penguatan yang Disesuaikan

Klasifikasi Berbasis BER…Transformer yang Disesua…Pembelajaran Penguatan Reinforcement Learning M…Pembelajaran Transfer de…Pembelajaran Penguatan M…

Sumber

Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., Schulman, J., Hilton, J., Kelton, F., Miller, L., Simens, M., Askell, A., Welinder, P., Christiano, P., Leike, J., & Lowe, R. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35, 27730–27744. link ↗
Christiano, P., Leike, J., Brown, T. B., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems, 30. link ↗

Cara menyitasi halaman ini

ScholarGate. (2026, June 3). Fine-Tuned Reinforcement Learning (Policy Adaptation via Fine-Tuning). ScholarGate. https://scholargate.app/id/deep-learning/fine-tuned-reinforcement-learning

Metode yang mana?

Letakkan metode ini berdampingan dengan kerabat terdekatnya dan baca secara bersisian — pustaka menata bukunya di atas meja; pilihan ada di tangan Anda.

Klasifikasi Berbasis BERT yang Di-fine-tunePembelajaran Mendalam↔ bandingkan
Transformer yang Disesuaikan HalusPembelajaran Mendalam↔ bandingkan
Pembelajaran PenguatanPembelajaran Mendalam↔ bandingkan
Reinforcement Learning MandiriPembelajaran Mendalam↔ bandingkan
Pembelajaran Transfer dengan Pembelajaran PenguatanPembelajaran Mendalam↔ bandingkan

Bandingkan berdampingan →

Dirujuk oleh

Pembelajaran Penguatan Multibahasa Pembelajaran Transfer dengan Pembelajaran Penguatan

Menemukan masalah di halaman ini? Laporkan atau usulkan perbaikan →

Baca metode selengkapnya

Peta metode

Sumber

Cara menyitasi halaman ini

Metode terkait

Metode yang mana?

Dirujuk oleh