Machine learningDeep Learning, Language Models, Parameter Efficient Fine-Tuning

Efficient Finetuning of Quantized LLMs

تنظیم دقیق مدل‌های زبان بزرگ نیازمند ذخیره‌سازی وضعیت بهینه‌ساز (optimizer states) و گرادیان‌ها است که حافظه قابل توجهی را اشغال می‌کنند. QLoRA این مشکل را از طریق دو تکنیک مکمل حل می‌کند: (۱) کوانتیزاسیون، وزن‌های پایه مدل را به دقت ۴ بیتی کاهش می‌دهد و حافظه را ۷۵٪ کاهش می‌دهد. (۲) LoRA (Low-Rank Adaptation)، ماتریس‌های کوچک قابل یادگیری با رتبه پایین را به وزن‌های پایه منجمد شده اضافه می‌کند و پارامترهای قابل آموزش را به ۱-۲٪ مدل کاهش می‌دهد. ترکیب این دو امکان تنظیم دقیق مدل‌های عظیم را بر روی سخت‌افزارهای مصرفی فراهم می‌سازد. یک ترفند هوشمندانه از کوانتیزاسیون NF4 (نرمالایز شده اعشاری) استفاده می‌کند که علی‌رغم فشرده‌سازی شدید، افت دقت را به حداقل می‌رساند.

باز کردن در MethodMindبه‌زودیویدیوبه‌زودیDownload slides

مطالعهٔ کامل روش

ویژهٔ اعضا

برای خواندن این بخش با حساب رایگان وارد شوید.

ورود

Method map

The neighbourhood of related methods — select a node to explore.

منابع

  1. Dettmers, T., Pagnoni, A., Holtzman, A., & Contrastive, L. (2023). QLoRA: Efficient finetuning of quantized LLMs. arXiv preprint arXiv:2305.14314. link

نحوهٔ استناد به این صفحه

ScholarGate. (2026, June 3). Efficient Finetuning of Quantized LLMs. ScholarGate. https://scholargate.app/fa/deep-learning/qlora

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

ارجاع‌شده در

ScholarGateQLoRA (Efficient Finetuning of Quantized LLMs). بازیابی‌شده در 2026-06-15 از https://scholargate.app/fa/deep-learning/qlora · مجموعه‌داده: https://doi.org/10.5281/zenodo.20539026