Efficient Finetuning of Quantized LLMs
تنظیم دقیق مدلهای زبان بزرگ نیازمند ذخیرهسازی وضعیت بهینهساز (optimizer states) و گرادیانها است که حافظه قابل توجهی را اشغال میکنند. QLoRA این مشکل را از طریق دو تکنیک مکمل حل میکند: (۱) کوانتیزاسیون، وزنهای پایه مدل را به دقت ۴ بیتی کاهش میدهد و حافظه را ۷۵٪ کاهش میدهد. (۲) LoRA (Low-Rank Adaptation)، ماتریسهای کوچک قابل یادگیری با رتبه پایین را به وزنهای پایه منجمد شده اضافه میکند و پارامترهای قابل آموزش را به ۱-۲٪ مدل کاهش میدهد. ترکیب این دو امکان تنظیم دقیق مدلهای عظیم را بر روی سختافزارهای مصرفی فراهم میسازد. یک ترفند هوشمندانه از کوانتیزاسیون NF4 (نرمالایز شده اعشاری) استفاده میکند که علیرغم فشردهسازی شدید، افت دقت را به حداقل میرساند.
مطالعهٔ کامل روش
برای خواندن این بخش با حساب رایگان وارد شوید.
Method map
The neighbourhood of related methods — select a node to explore.
منابع
- Dettmers, T., Pagnoni, A., Holtzman, A., & Contrastive, L. (2023). QLoRA: Efficient finetuning of quantized LLMs. arXiv preprint arXiv:2305.14314. link ↗
نحوهٔ استناد به این صفحه
ScholarGate. (2026, June 3). Efficient Finetuning of Quantized LLMs. ScholarGate. https://scholargate.app/fa/deep-learning/qlora
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- بهینهسازی مستقیم ترجیحاتیادگیری عمیق↔ compare
- مدلهای انتشاری نهفتهیادگیری عمیق↔ compare
- مامبا (مدل فضای حالت)یادگیری عمیق↔ compare
- خودرمزگذارِ پوشیده (Masked Autoencoders)یادگیری عمیق↔ compare
ارجاعشده در
در این صفحه مشکلی دیدید؟ گزارش دهید یا اصلاحی پیشنهاد کنید →