ScholarGate
Assistent
Machine learningDeep learning / NLP / CV

Häälestatud tugevdamisõpe

Häälestatud tugevdamisõpe kohandab eelnevalt koolitatud poliitikat või mudelit uue ülesande või käitumusliku eesmärgi jaoks, kasutades tugevdamissignaale – sealhulgas inimtagasisidet – mitte nullist uuesti koolitamist. RLHF-i poolt populariseeritud, see on peamine tehnika suurte keelemudelite ühitamiseks ja sügavate RL-agentide kohandamiseks spetsialiseeritud keskkondades minimaalse lisateabega.

Ava rakenduses MethodMindPeagiVideoPeagiLaadi slaidid alla

Loe meetodi täielikku kirjeldust

Ainult liikmetele

Selle osa lugemiseks logi sisse tasuta kontoga.

Logi sisse

Meetodikaart

Seotud meetodite ümbruskond — vali sõlm, et seda uurida.

Allikad

  1. Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., Schulman, J., Hilton, J., Kelton, F., Miller, L., Simens, M., Askell, A., Welinder, P., Christiano, P., Leike, J., & Lowe, R. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35, 27730–27744. link
  2. Christiano, P., Leike, J., Brown, T. B., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems, 30. link

Kuidas sellele lehele viidata

ScholarGate. (2026, June 3). Fine-Tuned Reinforcement Learning (Policy Adaptation via Fine-Tuning). ScholarGate. https://scholargate.app/et/deep-learning/fine-tuned-reinforcement-learning

Milline meetod?

Aseta see meetod oma lähimate sugulaste kõrvale ja loe neid kõrvuti — raamatukogu laob raamatud lauale; valik on sinu.

Võrdle kõrvuti

Sellele viitavad

ScholarGateFine-Tuned Reinforcement Learning (Fine-Tuned Reinforcement Learning (Policy Adaptation via Fine-Tuning)). Loetud 2026-06-15 aadressilt https://scholargate.app/et/deep-learning/fine-tuned-reinforcement-learning · Andmestik: https://doi.org/10.5281/zenodo.20539026