Machine learning

SGD avec Momentum / Optimiseur Adam

La descente de gradient stochastique (SGD) avec momentum et son descendant adaptatif Adam sont les algorithmes fondamentaux de mise à jour des paramètres utilisés pour entraîner pratiquement tous les modèles modernes d'apprentissage profond. La SGD avec momentum a été formalisée par Polyak (1964) et introduite dans l'entraînement des réseaux de neurones par Rumelhart, Hinton et Williams (1986). Adam, introduit par Kingma et Ba à l'ICLR 2015, a étendu l'idée du momentum en maintenant également une moyenne mobile des gradients au carré, produisant des taux d'apprentissage adaptatifs par paramètre qui en font l'optimiseur par défaut dans la pratique contemporaine de l'apprentissage profond.

Ouvrir dans MethodMindBientôtApply, compare, get guidance

Tools & resources

Télécharger les diapositives

Learn & explore

VidéoBientôt

Lire la méthode complète

Réservé aux membres

Connectez-vous avec un compte gratuit pour lire cette section.

Se connecter

Carte des méthodes

Le voisinage des méthodes apparentées — sélectionnez un nœud pour explorer.

SGD avec Momentum / Optimiseur Adam

Normalisation par lots

Sources

Kingma, D. P., & Ba, J. (2015). Adam: A method for stochastic optimization. International Conference on Learning Representations (ICLR 2015). arXiv:1412.6980. link ↗
Rumelhart, D. E., Hinton, G. E., & Williams, R. J. (1986). Learning representations by back-propagating errors. Nature, 323, 533–536. DOI: 10.1038/323533a0 ↗
Polyak, B. T. (1964). Some methods of speeding up the convergence of iteration methods. USSR Computational Mathematics and Mathematical Physics, 4(5), 1–17. DOI: 10.1016/0041-5553(64)90137-5 ↗
Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning (Ch. 8: Optimization for Training Deep Models). MIT Press. ISBN: 978-0-262-03561-3

Comment citer cette page

ScholarGate. (2026, June 3). Stochastic Gradient Descent with Momentum and Adaptive Moment Estimation (Adam). ScholarGate. https://scholargate.app/fr/deep-learning/stochastic-gradient-descent-with-momentum-adam-optimizer

Quelle méthode ?

Placez cette méthode aux côtés de ses plus proches parentes et lisez-les côte à côte — la bibliothèque pose les ouvrages sur la table ; le choix vous revient.

Normalisation par lotsApprentissage profond↔ comparer

Comparer côte à côte →

Related reference concepts

Rétropropagation et Optimisation Optimisation stochastique Optimisation des hyperparamètres Apprentissage profond Régularisation et complexité des modèles Biais-variance et surapprentissage

Une erreur sur cette page ? Signalez-la ou proposez une correction →