Pembelajaran Penguatan yang Ditala Halus
Pembelajaran Penguatan yang Ditala Halus (Fine-Tuned Reinforcement Learning) menyesuaikan dasar kebijakan atau model yang telah dilatih awal (pre-trained) kepada tugas baharu atau objektif tingkah laku menggunakan isyarat penguatan — termasuk maklum balas manusia — berbanding melatih semula dari awal. Dipopularkan oleh RLHF, ia adalah teknik teras di sebalik penjajaran model bahasa besar dan penyesuaian ejen RL dalam (deep RL) kepada persekitaran khusus dengan data tambahan yang minimum.
Baca kaedah sepenuhnya
Log masuk dengan akaun percuma untuk membaca bahagian ini.
Method map
The neighbourhood of related methods — select a node to explore.
Sumber
- Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., Schulman, J., Hilton, J., Kelton, F., Miller, L., Simens, M., Askell, A., Welinder, P., Christiano, P., Leike, J., & Lowe, R. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35, 27730–27744. link ↗
- Christiano, P., Leike, J., Brown, T. B., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems, 30. link ↗
Cara memetik halaman ini
ScholarGate. (2026, June 3). Fine-Tuned Reinforcement Learning (Policy Adaptation via Fine-Tuning). ScholarGate. https://scholargate.app/ms/deep-learning/fine-tuned-reinforcement-learning
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Klasifikasi Berasaskan BERT yang Ditala HalusPembelajaran Mendalam↔ compare
- Transformer yang Ditalar HalusPembelajaran Mendalam↔ compare
- Pembelajaran PengukuhanPembelajaran Mendalam↔ compare
- Self-supervised Reinforcement LearningPembelajaran Mendalam↔ compare
- Pembelajaran Pemindahan dengan Pembelajaran PengukuhanPembelajaran Mendalam↔ compare
Dirujuk oleh
Terjumpa masalah pada halaman ini? Laporkan atau cadangkan pembetulan →