Machine learningDeep learning / NLP / CV

Învățare prin Recompensă Fin Ajustată

Învățarea prin Recompensă Fin Ajustată (Fine-Tuned Reinforcement Learning) adaptează o politică sau un model pre-antrenat la o nouă sarcină sau obiectiv comportamental, utilizând semnale de recompensă — inclusiv feedback uman — în loc de re-antrenare de la zero. Popularizată de RLHF, aceasta este tehnica centrală din spatele alinierii modelelor lingvistice mari și adaptării agenților deep RL la medii specializate, cu date suplimentare minime.

Deschide în MethodMindÎn curândVideoÎn curândDescarcă prezentarea

Citește metoda completă

Doar pentru membri

Autentifică-te cu un cont gratuit pentru a citi această secțiune.

Autentificare

Harta metodelor

Vecinătatea metodelor înrudite — selectați un nod pentru a explora.

Învățare prin Recompensă Fin Ajustată

Clasificare bazată pe BE…Transformer ajustat fin Învățare prin consolidare Învățare prin consolidar…Învățarea prin Transfer…Învățare prin Recompensă…

Surse

Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., Schulman, J., Hilton, J., Kelton, F., Miller, L., Simens, M., Askell, A., Welinder, P., Christiano, P., Leike, J., & Lowe, R. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35, 27730–27744. link ↗
Christiano, P., Leike, J., Brown, T. B., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems, 30. link ↗

Cum se citează această pagină

ScholarGate. (2026, June 3). Fine-Tuned Reinforcement Learning (Policy Adaptation via Fine-Tuning). ScholarGate. https://scholargate.app/ro/deep-learning/fine-tuned-reinforcement-learning

Ce metodă?

Așezați această metodă lângă cele mai apropiate rude și citiți-le alăturat — biblioteca pune cărțile pe masă; alegerea vă aparține.

Clasificare bazată pe BERT fin-reglatÎnvățare profundă↔ compară
Transformer ajustat finÎnvățare profundă↔ compară
Învățare prin consolidareÎnvățare profundă↔ compară
Învățare prin consolidare auto-supervizatăÎnvățare profundă↔ compară
Învățarea prin Transfer cu Învățare prin ConsolidareÎnvățare profundă↔ compară

Compară alăturat →

Citat de

Învățare prin Recompensă Multilingvă Învățarea prin Transfer cu Învățare prin Consolidare

Ai observat o problemă pe această pagină? Raportează sau sugerează o corectură →

Citește metoda completă

Harta metodelor

Surse

Cum se citează această pagină

Metode înrudite

Ce metodă?

Citat de