Häälestatud tugevdamisõpe
Häälestatud tugevdamisõpe kohandab eelnevalt koolitatud poliitikat või mudelit uue ülesande või käitumusliku eesmärgi jaoks, kasutades tugevdamissignaale – sealhulgas inimtagasisidet – mitte nullist uuesti koolitamist. RLHF-i poolt populariseeritud, see on peamine tehnika suurte keelemudelite ühitamiseks ja sügavate RL-agentide kohandamiseks spetsialiseeritud keskkondades minimaalse lisateabega.
Loe meetodi täielikku kirjeldust
Selle osa lugemiseks logi sisse tasuta kontoga.
Meetodikaart
Seotud meetodite ümbruskond — vali sõlm, et seda uurida.
Allikad
- Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., Schulman, J., Hilton, J., Kelton, F., Miller, L., Simens, M., Askell, A., Welinder, P., Christiano, P., Leike, J., & Lowe, R. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35, 27730–27744. link ↗
- Christiano, P., Leike, J., Brown, T. B., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems, 30. link ↗
Kuidas sellele lehele viidata
ScholarGate. (2026, June 3). Fine-Tuned Reinforcement Learning (Policy Adaptation via Fine-Tuning). ScholarGate. https://scholargate.app/et/deep-learning/fine-tuned-reinforcement-learning
Milline meetod?
Aseta see meetod oma lähimate sugulaste kõrvale ja loe neid kõrvuti — raamatukogu laob raamatud lauale; valik on sinu.
- BERT-põhine peenhäälestatud klassifikaatorSüvaõpe↔ võrdle
- Fine-Tuned TransformerSüvaõpe↔ võrdle
- TugevdamisõpeSüvaõpe↔ võrdle
- Eneseteadlik tugevdamisõpeSüvaõpe↔ võrdle
- Ülekandeõpe koos tugevdusõppegaSüvaõpe↔ võrdle
Sellele viitavad
Märkasid sellel lehel viga? Teata sellest või paku parandust →