Fine-Tuned Reinforcement Learning
Fine-Tuned Reinforcement Learning past een vooraf getraind beleid of model aan voor een nieuwe taak of gedragsdoelstelling met behulp van versterkingssignalen — waaronder menselijke feedback — in plaats van opnieuw te trainen vanaf nul. Gepopulariseerd door RLHF, is het de kertechniek achter het afstemmen van grote taalmodellen en het aanpassen van deep RL-agenten aan gespecialiseerde omgevingen met minimale aanvullende gegevens.
Lees de volledige methode
Log in met een gratis account om dit onderdeel te lezen.
Methodenkaart
De omgeving van verwante methoden — selecteer een knooppunt om te verkennen.
Bronnen
- Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., Schulman, J., Hilton, J., Kelton, F., Miller, L., Simens, M., Askell, A., Welinder, P., Christiano, P., Leike, J., & Lowe, R. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35, 27730–27744. link ↗
- Christiano, P., Leike, J., Brown, T. B., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems, 30. link ↗
Deze pagina citeren
ScholarGate. (2026, June 3). Fine-Tuned Reinforcement Learning (Policy Adaptation via Fine-Tuning). ScholarGate. https://scholargate.app/nl/deep-learning/fine-tuned-reinforcement-learning
Welke methode?
Plaats deze methode naast haar naaste verwanten en lees ze naast elkaar — de bibliotheek legt de boeken op tafel; de keuze is aan u.
- Fijn-afgestelde BERT-gebaseerde ClassificatieDeep learning↔ vergelijken
- Gefinetunede TransformerDeep learning↔ vergelijken
- Reinforcement LearningDeep learning↔ vergelijken
- Zelfgesuperviseerd Reinforcement LearningDeep learning↔ vergelijken
- Transfer Learning met Reinforcement LearningDeep learning↔ vergelijken
Geciteerd door
Een fout op deze pagina gezien? Meld het of stel een correctie voor →