SGD עם מומנטום / אופטימייזר Adam
Stochastic Gradient Descent (SGD) עם מומנטום והצאצא ההסתגלותי שלו Adam הם אלגוריתמי עדכון הפרמטרים הבסיסיים המשמשים לאימון כמעט כל מודל למידה עמוקה מודרני. Momentum SGD פורמליזציה על ידי Polyak (1964) והוכנס לאימון רשתות נוירונים על ידי Rumelhart, Hinton, ו-Williams (1986). Adam, שהוצג על ידי Kingma ו-Ba ב-ICLR 2015, הרחיב את רעיון המומנטום על ידי שמירה גם על ממוצע נע של גרדיאנטים בריבוע, מה שמייצר קצבי למידה אדפטיביים לכל פרמטר, מה שהופך אותו לאופטימייזר ברירת המחדל בפרקטיקת הלמידה העמוקה העכשווית.
קראו את השיטה במלואה
התחברו עם חשבון חינמי כדי לקרוא חלק זה.
מפת שיטות
סביבת השיטות הקרובות — בחרו צומת כדי לחקור.
מקורות
- Kingma, D. P., & Ba, J. (2015). Adam: A method for stochastic optimization. International Conference on Learning Representations (ICLR 2015). arXiv:1412.6980. link ↗
- Rumelhart, D. E., Hinton, G. E., & Williams, R. J. (1986). Learning representations by back-propagating errors. Nature, 323, 533–536. DOI: 10.1038/323533a0 ↗
- Polyak, B. T. (1964). Some methods of speeding up the convergence of iteration methods. USSR Computational Mathematics and Mathematical Physics, 4(5), 1–17. DOI: 10.1016/0041-5553(64)90137-5 ↗
- Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning (Ch. 8: Optimization for Training Deep Models). MIT Press. ISBN: 978-0-262-03561-3
איך לצטט עמוד זה
ScholarGate. (2026, June 3). Stochastic Gradient Descent with Momentum and Adaptive Moment Estimation (Adam). ScholarGate. https://scholargate.app/he/deep-learning/stochastic-gradient-descent-with-momentum-adam-optimizer
איזו שיטה?
הציבו שיטה זו לצד קרובותיה הקרובות וקראו אותן זו לצד זו — הספרייה מניחה את הספרים על השולחן; הבחירה בידיכם.
- נרמול אצווהלמידה עמוקה↔ השוואה