بهینهساز گرادیان کاهشی تصادفی (SGD) با مومنتوم / بهینهساز Adam
گرادیان کاهشی تصادفی (SGD) با مومنتوم و نسل تطبیقی آن، Adam، الگوریتمهای بنیادی بهروزرسانی پارامتر هستند که برای آموزش تقریباً هر مدل یادگیری عمیق مدرن استفاده میشوند. SGD با مومنتوم توسط پولیاک (۱۹۶۴) فرموله شد و توسط روملهارت، هینتون و ویلیامز (۱۹۸۶) در آموزش شبکههای عصبی به کار گرفته شد. Adam، که توسط کینگما و با در ICLR ۲۰۱۵ معرفی شد، ایده مومنتوم را با حفظ میانگین متحرک نمایی از گرادیانهای مربعی، گسترش داد و نرخهای یادگیری تطبیقی به ازای هر پارامتر تولید کرد که آن را به بهینهساز پیشفرض در عمل یادگیری عمیق معاصر تبدیل کرده است.
مطالعهٔ کامل روش
برای خواندن این بخش با حساب رایگان وارد شوید.
نقشهٔ روش
همسایگی روشهای مرتبط — برای کاوش، یک گره را برگزینید.
منابع
- Kingma, D. P., & Ba, J. (2015). Adam: A method for stochastic optimization. International Conference on Learning Representations (ICLR 2015). arXiv:1412.6980. link ↗
- Rumelhart, D. E., Hinton, G. E., & Williams, R. J. (1986). Learning representations by back-propagating errors. Nature, 323, 533–536. DOI: 10.1038/323533a0 ↗
- Polyak, B. T. (1964). Some methods of speeding up the convergence of iteration methods. USSR Computational Mathematics and Mathematical Physics, 4(5), 1–17. DOI: 10.1016/0041-5553(64)90137-5 ↗
- Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning (Ch. 8: Optimization for Training Deep Models). MIT Press. ISBN: 978-0-262-03561-3
نحوهٔ استناد به این صفحه
ScholarGate. (2026, June 3). Stochastic Gradient Descent with Momentum and Adaptive Moment Estimation (Adam). ScholarGate. https://scholargate.app/fa/deep-learning/stochastic-gradient-descent-with-momentum-adam-optimizer
کدام روش؟
این روش را در کنار نزدیکترین روشهای خویشاوندش بگذارید و آنها را کنار هم بخوانید — کتابخانه کتابها را روی میز میگشاید؛ انتخاب با شماست.
- نرمالسازی دستهای (Batch Normalization)یادگیری عمیق↔ مقایسه
Similar methods
در این صفحه مشکلی دیدید؟ گزارش دهید یا اصلاحی پیشنهاد کنید →