ScholarGate
Assistent
Machine learningDeep learning / NLP / CV

Aprenentatge per Reforçament Finament Ajustat

L'Aprenentatge per Reforçament Finament Ajustat (Fine-Tuned Reinforcement Learning) adapta una política o model pre-entrenat a una nova tasca o objectiu de comportament utilitzant senyals de reforçament —incloent el feedback humà— en lloc de reentrenar des de zero. Popularitzat per RLHF, és la tècnica fonamental darrere de l'alineació de grans models de llenguatge i l'adaptació d'agents d'RL profund a entorns especialitzats amb dades addicionals mínimes.

Obre a MethodMindAviatVídeoAviatBaixa les diapositives

Llegeix el mètode complet

Només per a membres

Inicia la sessió amb un compte gratuït per llegir aquesta secció.

Inicia la sessió

Mapa de mètodes

El veïnat de mètodes relacionats — seleccioneu un node per explorar-lo.

Fonts

  1. Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., Schulman, J., Hilton, J., Kelton, F., Miller, L., Simens, M., Askell, A., Welinder, P., Christiano, P., Leike, J., & Lowe, R. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35, 27730–27744. link
  2. Christiano, P., Leike, J., Brown, T. B., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems, 30. link

Com citar aquesta pàgina

ScholarGate. (2026, June 3). Fine-Tuned Reinforcement Learning (Policy Adaptation via Fine-Tuning). ScholarGate. https://scholargate.app/ca/deep-learning/fine-tuned-reinforcement-learning

Quin mètode?

Poseu aquest mètode al costat dels seus parents més pròxims i llegiu-los de costat a costat — la biblioteca disposa els llibres sobre la taula; la tria és vostra.

Compara de costat a costat

Citat per

ScholarGateFine-Tuned Reinforcement Learning (Fine-Tuned Reinforcement Learning (Policy Adaptation via Fine-Tuning)). Recuperat el 2026-06-15 de https://scholargate.app/ca/deep-learning/fine-tuned-reinforcement-learning · Conjunt de dades: https://doi.org/10.5281/zenodo.20539026