Machine learningDeep Learning, Language Models, RLHF Alternatives

Direct Preference Optimization

Direct Preference Optimization (DPO)는 2023년 Rafailov 등이 소개한 훈련 방법으로, 명시적인 보상 모델 없이 언어 모델을 인간의 선호도에 맞게 조정합니다. DPO는 선호도 쌍(더 나은 응답 vs 더 나쁜 응답)을 직접 최적화함으로써 인간 피드백 기반 강화 학습(RLHF)에 비해 훈련 파이프라인을 단순화합니다.

MethodMind에서 열기곧 제공동영상곧 제공Download slides

방법 전문 읽기

회원 전용

무료 계정으로 로그인하면 이 섹션을 읽을 수 있습니다.

로그인

Method map

The neighbourhood of related methods — select a node to explore.

Direct Preference Optimization

잠재 확산 모델 맘바 (상태 공간 모델)Masked Autoencoders QLoRA

출처

Rafailov, R., Sharma, A., Mitchell, E., Manning, C. D., Ermon, S., & Finn, C. (2023). Direct preference optimization: Your language model is secretly a reward model. arXiv preprint arXiv:2305.18290. link ↗

이 페이지 인용 방법

ScholarGate. (2026, June 3). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. ScholarGate. https://scholargate.app/ko/deep-learning/direct-preference-optimization

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side →

이 방법을 참조하는 항목

QLoRA

이 페이지에서 오류를 발견하셨나요? 신고하거나 수정을 제안하세요 →

방법 전문 읽기

Method map

출처

이 페이지 인용 방법

관련 방법

Which method?

이 방법을 참조하는 항목