ScholarGate
Asistent
Machine learningDeep learning / NLP / CV

Învățare prin Recompensă Fin Ajustată

Învățarea prin Recompensă Fin Ajustată (Fine-Tuned Reinforcement Learning) adaptează o politică sau un model pre-antrenat la o nouă sarcină sau obiectiv comportamental, utilizând semnale de recompensă — inclusiv feedback uman — în loc de re-antrenare de la zero. Popularizată de RLHF, aceasta este tehnica centrală din spatele alinierii modelelor lingvistice mari și adaptării agenților deep RL la medii specializate, cu date suplimentare minime.

Deschide în MethodMindÎn curândVideoÎn curândDescarcă prezentarea

Citește metoda completă

Doar pentru membri

Autentifică-te cu un cont gratuit pentru a citi această secțiune.

Autentificare

Harta metodelor

Vecinătatea metodelor înrudite — selectați un nod pentru a explora.

Surse

  1. Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., Schulman, J., Hilton, J., Kelton, F., Miller, L., Simens, M., Askell, A., Welinder, P., Christiano, P., Leike, J., & Lowe, R. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35, 27730–27744. link
  2. Christiano, P., Leike, J., Brown, T. B., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems, 30. link

Cum se citează această pagină

ScholarGate. (2026, June 3). Fine-Tuned Reinforcement Learning (Policy Adaptation via Fine-Tuning). ScholarGate. https://scholargate.app/ro/deep-learning/fine-tuned-reinforcement-learning

Ce metodă?

Așezați această metodă lângă cele mai apropiate rude și citiți-le alăturat — biblioteca pune cărțile pe masă; alegerea vă aparține.

Compară alăturat

Citat de

ScholarGateFine-Tuned Reinforcement Learning (Fine-Tuned Reinforcement Learning (Policy Adaptation via Fine-Tuning)). Preluat la 2026-06-15 de pe https://scholargate.app/ro/deep-learning/fine-tuned-reinforcement-learning · Set de date: https://doi.org/10.5281/zenodo.20539026