Machine learning

تنظیم دقیق GPT

تنظیم دقیق GPT مدل‌های زبان خودبازگشتی از پیش آموزش‌دیده مانند GPT-2/3/4 یا LLaMA — که در کار سال ۲۰۱۹ OpenAI توسط رادفورد و همکاران معرفی شد — را به داده‌های خاص دامنه یا پیروی از دستورالعمل‌ها از طریق یادگیری تقویتی از بازخورد انسانی (RLHF) یا DPO تطبیق می‌دهد. این روش برای پیروی از دستورالعمل‌ها، انطباق دامنه و وظایف مولد استفاده می‌شود.

باز کردن در MethodMindبه‌زودیویدیوبه‌زودیDownload slides

مطالعهٔ کامل روش

ویژهٔ اعضا

برای خواندن این بخش با حساب رایگان وارد شوید.

ورود

Method map

The neighbourhood of related methods — select a node to explore.

تنظیم دقیق GPT

لورا و PEFT جنگل تصادفی Variational Autoencoder ترنسفورمر بینایی XGBoost سازوکار توجه تنظیم دقیق BERT تولید زبان طبیعی مهندسی اعلان توجه به خود چند-سری

منابع

Radford, A., Wu, J., Child, R., Luan, D., Amodei, D. & Sutskever, I. (2019). Language Models are Unsupervised Multitask Learners. OpenAI Technical Report. link ↗
Ouyang, L. et al. (2022). Training Language Models to Follow Instructions with Human Feedback. NeurIPS. DOI: 10.48550/arXiv.2203.02155 ↗

نحوهٔ استناد به این صفحه

ScholarGate. (2026, June 1). GPT Fine-Tuning and Instruction Adaptation. ScholarGate. https://scholargate.app/fa/deep-learning/gpt-finetuning

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

لورا و PEFTیادگیری عمیق↔ compare
جنگل تصادفییادگیری ماشین↔ compare
Variational Autoencoderیادگیری عمیق↔ compare
ترنسفورمر بینایییادگیری عمیق↔ compare
XGBoostیادگیری ماشین↔ compare

Compare side by side →

ارجاع‌شده در

سازوکار توجه تنظیم دقیق BERT تولید زبان طبیعی مهندسی اعلان توجه به خود چند-سری

در این صفحه مشکلی دیدید؟ گزارش دهید یا اصلاحی پیشنهاد کنید →

مطالعهٔ کامل روش

Method map

منابع

نحوهٔ استناد به این صفحه

روش‌های مرتبط

Which method?

ارجاع‌شده در