ScholarGate
Asistents
Machine learningDeep learning / NLP / CV

Saskaņotā pastiprinātās mācīšanās (Fine-Tuned Reinforcement Learning)

Saskaņotā pastiprinātās mācīšanās pielāgo iepriekš apmācītu politiku vai modeli jaunam uzdevumam vai uzvedības mērķim, izmantojot pastiprinājuma signālus — ieskaitot cilvēku atsauksmes — nevis pārmācot no jauna. Popularizēta ar RLHF, tā ir galvenā tehnika, kas nodrošina lielo valodu modeļu saskaņošanu un dziļās pastiprinātās mācīšanās aģentu pielāgošanu specializētām vidēm ar minimālu papildu datu apjomu.

Atvērt MethodMindDrīzumāVideoDrīzumāLejupielādēt slaidus

Lasīt pilno metodes aprakstu

Tikai dalībniekiem

Piesakieties ar bezmaksas kontu, lai lasītu šo sadaļu.

Pieteikties

Metožu karte

Saistīto metožu apkaime — atlasiet mezglu, lai izpētītu.

Avoti

  1. Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., Schulman, J., Hilton, J., Kelton, F., Miller, L., Simens, M., Askell, A., Welinder, P., Christiano, P., Leike, J., & Lowe, R. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35, 27730–27744. link
  2. Christiano, P., Leike, J., Brown, T. B., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems, 30. link

Kā citēt šo lapu

ScholarGate. (2026, June 3). Fine-Tuned Reinforcement Learning (Policy Adaptation via Fine-Tuning). ScholarGate. https://scholargate.app/lv/deep-learning/fine-tuned-reinforcement-learning

Kura metode?

Novietojiet šo metodi blakus tās tuvākajām radniecīgajām metodēm un lasiet tās līdzās — bibliotēka noliek grāmatas uz galda; izvēle ir jūsu.

Salīdzināt blakus

Uz to atsaucas

ScholarGateFine-Tuned Reinforcement Learning (Fine-Tuned Reinforcement Learning (Policy Adaptation via Fine-Tuning)). Izgūts 2026-06-15 no https://scholargate.app/lv/deep-learning/fine-tuned-reinforcement-learning · Datu kopa: https://doi.org/10.5281/zenodo.20539026