Saskaņotā pastiprinātās mācīšanās (Fine-Tuned Reinforcement Learning)
Saskaņotā pastiprinātās mācīšanās pielāgo iepriekš apmācītu politiku vai modeli jaunam uzdevumam vai uzvedības mērķim, izmantojot pastiprinājuma signālus — ieskaitot cilvēku atsauksmes — nevis pārmācot no jauna. Popularizēta ar RLHF, tā ir galvenā tehnika, kas nodrošina lielo valodu modeļu saskaņošanu un dziļās pastiprinātās mācīšanās aģentu pielāgošanu specializētām vidēm ar minimālu papildu datu apjomu.
Lasīt pilno metodes aprakstu
Piesakieties ar bezmaksas kontu, lai lasītu šo sadaļu.
Metožu karte
Saistīto metožu apkaime — atlasiet mezglu, lai izpētītu.
Avoti
- Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., Schulman, J., Hilton, J., Kelton, F., Miller, L., Simens, M., Askell, A., Welinder, P., Christiano, P., Leike, J., & Lowe, R. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35, 27730–27744. link ↗
- Christiano, P., Leike, J., Brown, T. B., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems, 30. link ↗
Kā citēt šo lapu
ScholarGate. (2026, June 3). Fine-Tuned Reinforcement Learning (Policy Adaptation via Fine-Tuning). ScholarGate. https://scholargate.app/lv/deep-learning/fine-tuned-reinforcement-learning
Kura metode?
Novietojiet šo metodi blakus tās tuvākajām radniecīgajām metodēm un lasiet tās līdzās — bibliotēka noliek grāmatas uz galda; izvēle ir jūsu.
- Klasifikācija, kas pielāgota ar BERTDziļā mācīšanās↔ salīdzināt
- Precīzi noskaņots transformatorsDziļā mācīšanās↔ salīdzināt
- Mācīšanās ar pastiprinājumuDziļā mācīšanās↔ salīdzināt
- Pašuzraudzītā pastiprinātā mācīšanāsDziļā mācīšanās↔ salīdzināt
- Pārneses mācīšanās ar pastiprinājuma mācīšanosDziļā mācīšanās↔ salīdzināt
Uz to atsaucas
Pamanījāt kļūdu šajā lapā? Ziņojiet vai ierosiniet labojumu →