ScholarGate
Assistent
Machine learningDeep learning / NLP / CV

Finjusterad förstärkningsinlärning

Finjusterad förstärkningsinlärning anpassar en förtränad policy eller modell till en ny uppgift eller beteendemässig målsättning med hjälp av förstärkningssignaler — inklusive mänsklig återkoppling — snarare än att träna om från grunden. Populariserad genom RLHF, är det kärntekniken bakom anpassningen av stora språkmodeller och anpassningen av djupa RL-agenter till specialiserade miljöer med minimal ytterligare data.

Öppna i MethodMindSnartVideoSnartDownload slides

Läs hela metoden

Endast för medlemmar

Logga in med ett kostnadsfritt konto för att läsa avsnittet.

Logga in

Method map

The neighbourhood of related methods — select a node to explore.

Källor

  1. Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., Schulman, J., Hilton, J., Kelton, F., Miller, L., Simens, M., Askell, A., Welinder, P., Christiano, P., Leike, J., & Lowe, R. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35, 27730–27744. link
  2. Christiano, P., Leike, J., Brown, T. B., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems, 30. link

Så citerar du den här sidan

ScholarGate. (2026, June 3). Fine-Tuned Reinforcement Learning (Policy Adaptation via Fine-Tuning). ScholarGate. https://scholargate.app/sv/deep-learning/fine-tuned-reinforcement-learning

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Refereras av

ScholarGateFine-Tuned Reinforcement Learning (Fine-Tuned Reinforcement Learning (Policy Adaptation via Fine-Tuning)). Hämtad 2026-06-15 från https://scholargate.app/sv/deep-learning/fine-tuned-reinforcement-learning · Datamängd: https://doi.org/10.5281/zenodo.20539026