SGD med Momentum / Adam Optimizer
Stokastisk Gradient Descent (SGD) med momentum og dens adaptive efterfølger Adam er de fundamentale algoritmer til parameteropdatering, der bruges til at træne stort set enhver moderne deep learning-model. Momentum SGD blev formaliseret af Polyak (1964) og introduceret til træning af neurale netværk af Rumelhart, Hinton og Williams (1986). Adam, introduceret af Kingma og Ba ved ICLR 2015, udvidede momentum-idéen ved også at opretholde et løbende gennemsnit af kvadrerede gradienter, hvilket producerer adaptive læringsrater per parameter, der gør det til standardoptimeren i nutidig deep learning-praksis.
Læs hele metoden
Log ind med en gratis konto for at læse dette afsnit.
Metodekort
Nabolaget af beslægtede metoder — vælg en knude for at udforske.
Kilder
- Kingma, D. P., & Ba, J. (2015). Adam: A method for stochastic optimization. International Conference on Learning Representations (ICLR 2015). arXiv:1412.6980. link ↗
- Rumelhart, D. E., Hinton, G. E., & Williams, R. J. (1986). Learning representations by back-propagating errors. Nature, 323, 533–536. DOI: 10.1038/323533a0 ↗
- Polyak, B. T. (1964). Some methods of speeding up the convergence of iteration methods. USSR Computational Mathematics and Mathematical Physics, 4(5), 1–17. DOI: 10.1016/0041-5553(64)90137-5 ↗
- Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning (Ch. 8: Optimization for Training Deep Models). MIT Press. ISBN: 978-0-262-03561-3
Sådan citerer du denne side
ScholarGate. (2026, June 3). Stochastic Gradient Descent with Momentum and Adaptive Moment Estimation (Adam). ScholarGate. https://scholargate.app/da/deep-learning/stochastic-gradient-descent-with-momentum-adam-optimizer
Hvilken metode?
Stil denne metode ved siden af dens nærmeste slægtninge, og læs dem side om side — biblioteket lægger bøgerne på bordet; valget er dit.
- Batch NormalizationDyb læring↔ sammenlign
Similar methods
Har du fundet en fejl på denne side? Indberet den eller foreslå en rettelse →