Machine learningDeep learning / NLP / CV

Aprenentatge per Reforçament Finament Ajustat

L'Aprenentatge per Reforçament Finament Ajustat (Fine-Tuned Reinforcement Learning) adapta una política o model pre-entrenat a una nova tasca o objectiu de comportament utilitzant senyals de reforçament —incloent el feedback humà— en lloc de reentrenar des de zero. Popularitzat per RLHF, és la tècnica fonamental darrere de l'alineació de grans models de llenguatge i l'adaptació d'agents d'RL profund a entorns especialitzats amb dades addicionals mínimes.

Obre a MethodMindAviatVídeoAviatBaixa les diapositives

Llegeix el mètode complet

Només per a membres

Inicia la sessió amb un compte gratuït per llegir aquesta secció.

Inicia la sessió

Mapa de mètodes

El veïnat de mètodes relacionats — seleccioneu un node per explorar-lo.

Aprenentatge per Reforçament Finament Ajustat

Classificació basada en…Transformer afinat Aprenentatge per Reforça…Aprenentatge per Reforç…Aprenentatge per Transfe…Aprenentatge per Reforç…

Fonts

Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., Schulman, J., Hilton, J., Kelton, F., Miller, L., Simens, M., Askell, A., Welinder, P., Christiano, P., Leike, J., & Lowe, R. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35, 27730–27744. link ↗
Christiano, P., Leike, J., Brown, T. B., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems, 30. link ↗

Com citar aquesta pàgina

ScholarGate. (2026, June 3). Fine-Tuned Reinforcement Learning (Policy Adaptation via Fine-Tuning). ScholarGate. https://scholargate.app/ca/deep-learning/fine-tuned-reinforcement-learning

Quin mètode?

Poseu aquest mètode al costat dels seus parents més pròxims i llegiu-los de costat a costat — la biblioteca disposa els llibres sobre la taula; la tria és vostra.

Classificació basada en BERT amb ajustament fiAprenentatge profund↔ compara
Transformer afinatAprenentatge profund↔ compara
Aprenentatge per ReforçamentAprenentatge profund↔ compara
Aprenentatge per Reforç Auto-supervisatAprenentatge profund↔ compara
Aprenentatge per Transferència amb Aprenentatge per ReforçamentAprenentatge profund↔ compara

Compara de costat a costat →

Citat per

Aprenentatge per Reforç Multilingüe Aprenentatge per Transferència amb Aprenentatge per Reforçament

Has vist cap problema en aquesta pàgina? Informa'n o suggereix una correcció →

Llegeix el mètode complet

Mapa de mètodes

Fonts

Com citar aquesta pàgina

Mètodes relacionats

Quin mètode?

Citat per