ScholarGate
Assistent
Machine learningDeep learning / NLP / CV

Fine-Tuned Reinforcement Learning

Fine-Tuned Reinforcement Learning past een vooraf getraind beleid of model aan voor een nieuwe taak of gedragsdoelstelling met behulp van versterkingssignalen — waaronder menselijke feedback — in plaats van opnieuw te trainen vanaf nul. Gepopulariseerd door RLHF, is het de kertechniek achter het afstemmen van grote taalmodellen en het aanpassen van deep RL-agenten aan gespecialiseerde omgevingen met minimale aanvullende gegevens.

Openen in MethodMindBinnenkortVideoBinnenkortDia's downloaden

Lees de volledige methode

Alleen voor leden

Log in met een gratis account om dit onderdeel te lezen.

Inloggen

Methodenkaart

De omgeving van verwante methoden — selecteer een knooppunt om te verkennen.

Bronnen

  1. Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., Schulman, J., Hilton, J., Kelton, F., Miller, L., Simens, M., Askell, A., Welinder, P., Christiano, P., Leike, J., & Lowe, R. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35, 27730–27744. link
  2. Christiano, P., Leike, J., Brown, T. B., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems, 30. link

Deze pagina citeren

ScholarGate. (2026, June 3). Fine-Tuned Reinforcement Learning (Policy Adaptation via Fine-Tuning). ScholarGate. https://scholargate.app/nl/deep-learning/fine-tuned-reinforcement-learning

Welke methode?

Plaats deze methode naast haar naaste verwanten en lees ze naast elkaar — de bibliotheek legt de boeken op tafel; de keuze is aan u.

Naast elkaar vergelijken

Geciteerd door

ScholarGateFine-Tuned Reinforcement Learning (Fine-Tuned Reinforcement Learning (Policy Adaptation via Fine-Tuning)). Geraadpleegd op 2026-06-15 via https://scholargate.app/nl/deep-learning/fine-tuned-reinforcement-learning · Gegevensset: https://doi.org/10.5281/zenodo.20539026