Finjusteret forstærkningslæring
Finjusteret forstærkningslæring (Fine-Tuned Reinforcement Learning) tilpasser en forudtrænet politik eller model til en ny opgave eller adfærdsmæssigt mål ved hjælp af forstærkningssignaler – herunder menneskelig feedback – snarere end at genoptræne fra bunden. Populariseret af RLHF, er det den centrale teknik bag at tilpasse store sprogmodeller og tilpasse dybe RL-agenter til specialiserede miljøer med minimal yderligere data.
Læs hele metoden
Log ind med en gratis konto for at læse dette afsnit.
Method map
The neighbourhood of related methods — select a node to explore.
Kilder
- Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., Schulman, J., Hilton, J., Kelton, F., Miller, L., Simens, M., Askell, A., Welinder, P., Christiano, P., Leike, J., & Lowe, R. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35, 27730–27744. link ↗
- Christiano, P., Leike, J., Brown, T. B., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems, 30. link ↗
Sådan citerer du denne side
ScholarGate. (2026, June 3). Fine-Tuned Reinforcement Learning (Policy Adaptation via Fine-Tuning). ScholarGate. https://scholargate.app/da/deep-learning/fine-tuned-reinforcement-learning
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Finjusteret BERT-baseret klassifikationDyb læring↔ compare
- Fintunet TransformerDyb læring↔ compare
- ForstærkningslæringDyb læring↔ compare
- Selvovervåget forstærkningslæringDyb læring↔ compare
- Transfer Learning med Reinforcement LearningDyb læring↔ compare
Refereret af
Har du fundet en fejl på denne side? Indberet den eller foreslå en rettelse →