Ajustament fi de GPT
L'ajustament fi de GPT adapta models de llenguatge autorregressius pre-entrenats com GPT-2/3/4 o LLaMA —introduïts en el treball de 2019 d'OpenAI per Radford i col·legues— a dades específiques del domini o a seguir instruccions mitjançant aprenentatge per reforç amb retroalimentació humana (RLHF) o DPO. S'utilitza per seguir instruccions, adaptació de domini i tasques generatives.
Llegeix el mètode complet
Inicia la sessió amb un compte gratuït per llegir aquesta secció.
Method map
The neighbourhood of related methods — select a node to explore.
Fonts
- Radford, A., Wu, J., Child, R., Luan, D., Amodei, D. & Sutskever, I. (2019). Language Models are Unsupervised Multitask Learners. OpenAI Technical Report. link ↗
- Ouyang, L. et al. (2022). Training Language Models to Follow Instructions with Human Feedback. NeurIPS. DOI: 10.48550/arXiv.2203.02155 ↗
Com citar aquesta pàgina
ScholarGate. (2026, June 1). GPT Fine-Tuning and Instruction Adaptation. ScholarGate. https://scholargate.app/ca/deep-learning/gpt-finetuning
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- LoRA i PEFTAprenentatge profund↔ compare
- Random ForestAprenentatge automàtic↔ compare
- Variational AutoencoderAprenentatge profund↔ compare
- Vision TransformerAprenentatge profund↔ compare
- XGBoostAprenentatge automàtic↔ compare
Citat per
Has vist cap problema en aquesta pàgina? Informa'n o suggereix una correcció →