Învățare prin Recompensă Fin Ajustată
Învățarea prin Recompensă Fin Ajustată (Fine-Tuned Reinforcement Learning) adaptează o politică sau un model pre-antrenat la o nouă sarcină sau obiectiv comportamental, utilizând semnale de recompensă — inclusiv feedback uman — în loc de re-antrenare de la zero. Popularizată de RLHF, aceasta este tehnica centrală din spatele alinierii modelelor lingvistice mari și adaptării agenților deep RL la medii specializate, cu date suplimentare minime.
Citește metoda completă
Autentifică-te cu un cont gratuit pentru a citi această secțiune.
Harta metodelor
Vecinătatea metodelor înrudite — selectați un nod pentru a explora.
Surse
- Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., Schulman, J., Hilton, J., Kelton, F., Miller, L., Simens, M., Askell, A., Welinder, P., Christiano, P., Leike, J., & Lowe, R. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35, 27730–27744. link ↗
- Christiano, P., Leike, J., Brown, T. B., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems, 30. link ↗
Cum se citează această pagină
ScholarGate. (2026, June 3). Fine-Tuned Reinforcement Learning (Policy Adaptation via Fine-Tuning). ScholarGate. https://scholargate.app/ro/deep-learning/fine-tuned-reinforcement-learning
Ce metodă?
Așezați această metodă lângă cele mai apropiate rude și citiți-le alăturat — biblioteca pune cărțile pe masă; alegerea vă aparține.
- Clasificare bazată pe BERT fin-reglatÎnvățare profundă↔ compară
- Transformer ajustat finÎnvățare profundă↔ compară
- Învățare prin consolidareÎnvățare profundă↔ compară
- Învățare prin consolidare auto-supervizatăÎnvățare profundă↔ compară
- Învățarea prin Transfer cu Învățare prin ConsolidareÎnvățare profundă↔ compară
Citat de
Ai observat o problemă pe această pagină? Raportează sau sugerează o corectură →