Machine learningDeep learning / NLP / CV

Häälestatud tugevdamisõpe

Häälestatud tugevdamisõpe kohandab eelnevalt koolitatud poliitikat või mudelit uue ülesande või käitumusliku eesmärgi jaoks, kasutades tugevdamissignaale – sealhulgas inimtagasisidet – mitte nullist uuesti koolitamist. RLHF-i poolt populariseeritud, see on peamine tehnika suurte keelemudelite ühitamiseks ja sügavate RL-agentide kohandamiseks spetsialiseeritud keskkondades minimaalse lisateabega.

Ava rakenduses MethodMindPeagiVideoPeagiLaadi slaidid alla

Loe meetodi täielikku kirjeldust

Ainult liikmetele

Selle osa lugemiseks logi sisse tasuta kontoga.

Logi sisse

Meetodikaart

Seotud meetodite ümbruskond — vali sõlm, et seda uurida.

Häälestatud tugevdamisõpe

BERT-põhine peenhäälesta…Fine-Tuned Transformer Tugevdamisõpe Eneseteadlik tugevdamisõ…Ülekandeõpe koos tugevdu…Mitmekeelne tugevdamisõpe

Allikad

Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., Schulman, J., Hilton, J., Kelton, F., Miller, L., Simens, M., Askell, A., Welinder, P., Christiano, P., Leike, J., & Lowe, R. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35, 27730–27744. link ↗
Christiano, P., Leike, J., Brown, T. B., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems, 30. link ↗

Kuidas sellele lehele viidata

ScholarGate. (2026, June 3). Fine-Tuned Reinforcement Learning (Policy Adaptation via Fine-Tuning). ScholarGate. https://scholargate.app/et/deep-learning/fine-tuned-reinforcement-learning

Milline meetod?

Aseta see meetod oma lähimate sugulaste kõrvale ja loe neid kõrvuti — raamatukogu laob raamatud lauale; valik on sinu.

BERT-põhine peenhäälestatud klassifikaatorSüvaõpe↔ võrdle
Fine-Tuned TransformerSüvaõpe↔ võrdle
TugevdamisõpeSüvaõpe↔ võrdle
Eneseteadlik tugevdamisõpeSüvaõpe↔ võrdle
Ülekandeõpe koos tugevdusõppegaSüvaõpe↔ võrdle

Võrdle kõrvuti →

Sellele viitavad

Mitmekeelne tugevdamisõpe Ülekandeõpe koos tugevdusõppega

Märkasid sellel lehel viga? Teata sellest või paku parandust →

Loe meetodi täielikku kirjeldust

Meetodikaart

Allikad

Kuidas sellele lehele viidata

Seotud meetodid

Milline meetod?

Sellele viitavad