Hienosäädetty vahvistusoppiminen
Hienosäädetty vahvistusoppiminen (Fine-Tuned Reinforcement Learning) mukauttaa esikoulutetun toimintaperiaatteen tai mallin uuteen tehtävään tai käyttäytymistavoitteeseen vahvistussignaalien – mukaan lukien ihmisen palaute – avulla sen sijaan, että se koulutettaisiin alusta alkaen. RLHF:n (Reinforcement Learning from Human Feedback) popularisoima se on keskeinen tekniikka suurten kielimallien kohdistamisessa ja syvien vahvistusoppimisagenttien mukauttamisessa erikoistuneisiin ympäristöihin minimaalisella lisädatalla.
Lue koko menetelmä
Kirjaudu sisään maksuttomalla tilillä lukeaksesi tämän osion.
Method map
The neighbourhood of related methods — select a node to explore.
Lähteet
- Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., Schulman, J., Hilton, J., Kelton, F., Miller, L., Simens, M., Askell, A., Welinder, P., Christiano, P., Leike, J., & Lowe, R. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35, 27730–27744. link ↗
- Christiano, P., Leike, J., Brown, T. B., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems, 30. link ↗
Näin viittaat tähän sivuun
ScholarGate. (2026, June 3). Fine-Tuned Reinforcement Learning (Policy Adaptation via Fine-Tuning). ScholarGate. https://scholargate.app/fi/deep-learning/fine-tuned-reinforcement-learning
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Hienosäädetty BERT-pohjainen luokitteluSyväoppiminen↔ compare
- Hienosäädetty TransformerSyväoppiminen↔ compare
- VahvistusoppiminenSyväoppiminen↔ compare
- Itseohjautuva vahvistusoppiminenSyväoppiminen↔ compare
- Siirto-oppiminen vahvistusoppimisellaSyväoppiminen↔ compare
Tähän viittaavat
Huomasitko virheen tällä sivulla? Ilmoita siitä tai ehdota korjausta →