Machine learningDeep learning / NLP / CV

Finjusterad förstärkningsinlärning

Finjusterad förstärkningsinlärning anpassar en förtränad policy eller modell till en ny uppgift eller beteendemässig målsättning med hjälp av förstärkningssignaler — inklusive mänsklig återkoppling — snarare än att träna om från grunden. Populariserad genom RLHF, är det kärntekniken bakom anpassningen av stora språkmodeller och anpassningen av djupa RL-agenter till specialiserade miljöer med minimal ytterligare data.

Öppna i MethodMindSnartVideoSnartDownload slides

Läs hela metoden

Endast för medlemmar

Logga in med ett kostnadsfritt konto för att läsa avsnittet.

Logga in

Method map

The neighbourhood of related methods — select a node to explore.

Finjusterad förstärkningsinlärning

Fintrimmad BERT-baserad…Fintrimmad transformator Förstärkningsinlärning Självövervakad förstärkn…Transfer Learning med Re…Flerspråkig förstärkning…

Källor

Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., Schulman, J., Hilton, J., Kelton, F., Miller, L., Simens, M., Askell, A., Welinder, P., Christiano, P., Leike, J., & Lowe, R. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35, 27730–27744. link ↗
Christiano, P., Leike, J., Brown, T. B., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems, 30. link ↗

Så citerar du den här sidan

ScholarGate. (2026, June 3). Fine-Tuned Reinforcement Learning (Policy Adaptation via Fine-Tuning). ScholarGate. https://scholargate.app/sv/deep-learning/fine-tuned-reinforcement-learning

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Fintrimmad BERT-baserad klassificeringDjupinlärning↔ compare
Fintrimmad transformatorDjupinlärning↔ compare
FörstärkningsinlärningDjupinlärning↔ compare
Självövervakad förstärkningsinlärningDjupinlärning↔ compare
Transfer Learning med Reinforcement LearningDjupinlärning↔ compare

Compare side by side →

Refereras av

Flerspråkig förstärkningsinlärning Transfer Learning med Reinforcement Learning

Hittade du ett fel på sidan? Rapportera eller föreslå en rättelse →

Läs hela metoden

Method map

Källor

Så citerar du den här sidan

Närliggande metoder

Which method?

Refereras av