Machine learningDeep learning / NLP / CV

Saskaņotā pastiprinātās mācīšanās (Fine-Tuned Reinforcement Learning)

Saskaņotā pastiprinātās mācīšanās pielāgo iepriekš apmācītu politiku vai modeli jaunam uzdevumam vai uzvedības mērķim, izmantojot pastiprinājuma signālus — ieskaitot cilvēku atsauksmes — nevis pārmācot no jauna. Popularizēta ar RLHF, tā ir galvenā tehnika, kas nodrošina lielo valodu modeļu saskaņošanu un dziļās pastiprinātās mācīšanās aģentu pielāgošanu specializētām vidēm ar minimālu papildu datu apjomu.

Atvērt MethodMindDrīzumāVideoDrīzumāLejupielādēt slaidus

Lasīt pilno metodes aprakstu

Tikai dalībniekiem

Piesakieties ar bezmaksas kontu, lai lasītu šo sadaļu.

Pieteikties

Metožu karte

Saistīto metožu apkaime — atlasiet mezglu, lai izpētītu.

Saskaņotā pastiprinātās mācīšanās (Fine-Tuned Reinforcement Learning)

Klasifikācija, kas pielā…Precīzi noskaņots transf…Mācīšanās ar pastiprināj…Pašuzraudzītā pastiprinā…Pārneses mācīšanās ar pa…Daudzvalodu pastiprināju…

Avoti

Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., Schulman, J., Hilton, J., Kelton, F., Miller, L., Simens, M., Askell, A., Welinder, P., Christiano, P., Leike, J., & Lowe, R. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35, 27730–27744. link ↗
Christiano, P., Leike, J., Brown, T. B., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems, 30. link ↗

Kā citēt šo lapu

ScholarGate. (2026, June 3). Fine-Tuned Reinforcement Learning (Policy Adaptation via Fine-Tuning). ScholarGate. https://scholargate.app/lv/deep-learning/fine-tuned-reinforcement-learning

Kura metode?

Novietojiet šo metodi blakus tās tuvākajām radniecīgajām metodēm un lasiet tās līdzās — bibliotēka noliek grāmatas uz galda; izvēle ir jūsu.

Klasifikācija, kas pielāgota ar BERTDziļā mācīšanās↔ salīdzināt
Precīzi noskaņots transformatorsDziļā mācīšanās↔ salīdzināt
Mācīšanās ar pastiprinājumuDziļā mācīšanās↔ salīdzināt
Pašuzraudzītā pastiprinātā mācīšanāsDziļā mācīšanās↔ salīdzināt
Pārneses mācīšanās ar pastiprinājuma mācīšanosDziļā mācīšanās↔ salīdzināt

Salīdzināt blakus →

Uz to atsaucas

Daudzvalodu pastiprinājuma mācīšanās Pārneses mācīšanās ar pastiprinājuma mācīšanos

Pamanījāt kļūdu šajā lapā? Ziņojiet vai ierosiniet labojumu →

Lasīt pilno metodes aprakstu

Metožu karte

Avoti

Kā citēt šo lapu

Saistītās metodes

Kura metode?

Uz to atsaucas