Machine learning

SGD с моментумом / Оптимизатор Adam

Стохастический градиентный спуск (SGD) с моментумом и его адаптивный потомок Adam являются фундаментальными алгоритмами обновления параметров, используемыми для обучения практически всех современных моделей глубокого обучения. SGD с моментумом был формализован Поляком (1964) и внедрен в обучение нейронных сетей Румельхартом, Хинтоном и Уильямсом (1986). Adam, представленный Кингмой и Ба на ICLR 2015, расширил идею моментума, поддерживая также скользящее среднее квадратов градиентов, что приводит к адаптивным скоростям обучения для каждого параметра, делая его оптимизатором по умолчанию в современной практике глубокого обучения.

Открыть в MethodMindСкороApply, compare, get guidance

Tools & resources

Скачать слайды

Learn & explore

ВидеоСкоро

Читать метод полностью

Только для участников

Войдите с бесплатным аккаунтом, чтобы прочитать этот раздел.

Войти

Карта метода

Окружение родственных методов — выберите узел, чтобы перейти к нему.

SGD с моментумом / Оптимизатор Adam

Пакетная нормализация

Источники

Kingma, D. P., & Ba, J. (2015). Adam: A method for stochastic optimization. International Conference on Learning Representations (ICLR 2015). arXiv:1412.6980. link ↗
Rumelhart, D. E., Hinton, G. E., & Williams, R. J. (1986). Learning representations by back-propagating errors. Nature, 323, 533–536. DOI: 10.1038/323533a0 ↗
Polyak, B. T. (1964). Some methods of speeding up the convergence of iteration methods. USSR Computational Mathematics and Mathematical Physics, 4(5), 1–17. DOI: 10.1016/0041-5553(64)90137-5 ↗
Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning (Ch. 8: Optimization for Training Deep Models). MIT Press. ISBN: 978-0-262-03561-3

Как цитировать эту страницу

ScholarGate. (2026, June 3). Stochastic Gradient Descent with Momentum and Adaptive Moment Estimation (Adam). ScholarGate. https://scholargate.app/ru/deep-learning/stochastic-gradient-descent-with-momentum-adam-optimizer

Какой метод?

Поставьте этот метод рядом с ближайшими родственными и прочитайте их бок о бок — библиотека выкладывает книги на стол, а выбор за вами.

Пакетная нормализацияГлубокое обучение↔ сравнить

Сравнить рядом →

Related reference concepts

Обратное распространение ошибки и оптимизация Стохастическая оптимизация Оптимизация гиперпараметров Глубокое обучение Регуляризация и сложность модели Смещение-дисперсия и переобучение

Нашли ошибку на этой странице? Сообщите о ней или предложите исправление →