Machine learningDeep learning / NLP / CV
미세조정 강화학습
미세조정 강화학습(Fine-Tuned Reinforcement Learning)은 사전 훈련된 정책(policy) 또는 모델을 처음부터 재훈련하는 대신, 강화 신호(인간 피드백 포함)를 사용하여 새로운 작업이나 행동 목표에 적응시키는 기법입니다. RLHF(Reinforcement Learning from Human Feedback)로 대중화된 이 기법은 대규모 언어 모델을 정렬(align)하고 심층 강화학습 에이전트를 최소한의 추가 데이터로 특수 환경에 적응시키는 핵심 기술입니다.
방법 전문 읽기
회원 전용
로그인무료 계정으로 로그인하면 이 섹션을 읽을 수 있습니다.
Method map
The neighbourhood of related methods — select a node to explore.
출처
- Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., Schulman, J., Hilton, J., Kelton, F., Miller, L., Simens, M., Askell, A., Welinder, P., Christiano, P., Leike, J., & Lowe, R. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35, 27730–27744. link ↗
- Christiano, P., Leike, J., Brown, T. B., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems, 30. link ↗
이 페이지 인용 방법
ScholarGate. (2026, June 3). Fine-Tuned Reinforcement Learning (Policy Adaptation via Fine-Tuning). ScholarGate. https://scholargate.app/ko/deep-learning/fine-tuned-reinforcement-learning
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- BERT 기반 미세조정 분류딥러닝↔ compare
- 파인튜닝 트랜스포머딥러닝↔ compare
- 강화학습딥러닝↔ compare
- 자기 지도 강화 학습딥러닝↔ compare
- 강화학습에서의 전이 학습딥러닝↔ compare