Machine learning

모멘텀 SGD / Adam 옵티마이저

모멘텀을 활용한 확률적 경사 하강법(Stochastic Gradient Descent, SGD)과 그 적응형 후속 모델인 Adam은 거의 모든 현대 딥러닝 모델을 훈련하는 데 사용되는 기본적인 파라미터 업데이트 알고리즘입니다. 모멘텀 SGD는 Polyak (1964)에 의해 정립되었고, Rumelhart, Hinton, and Williams (1986)에 의해 신경망 훈련에 도입되었습니다. Kingma와 Ba가 ICLR 2015에서 발표한 Adam은 제곱 기울기의 이동 평균도 유지함으로써 모멘텀 아이디어를 확장했으며, 파라미터별 적응형 학습률을 생성하여 현대 딥러닝 실무에서 기본 옵티마이저로 자리 잡았습니다.

MethodMind에서 열기곧 제공Apply, compare, get guidance

Tools & resources

슬라이드 다운로드

Learn & explore

동영상곧 제공

방법 전문 읽기

회원 전용

무료 계정으로 로그인하면 이 섹션을 읽을 수 있습니다.

로그인

방법 지도

관련 방법들로 이루어진 인접 영역 — 노드를 선택해 살펴보세요.

모멘텀 SGD / Adam 옵티마이저

배치 정규화

출처

Kingma, D. P., & Ba, J. (2015). Adam: A method for stochastic optimization. International Conference on Learning Representations (ICLR 2015). arXiv:1412.6980. link ↗
Rumelhart, D. E., Hinton, G. E., & Williams, R. J. (1986). Learning representations by back-propagating errors. Nature, 323, 533–536. DOI: 10.1038/323533a0 ↗
Polyak, B. T. (1964). Some methods of speeding up the convergence of iteration methods. USSR Computational Mathematics and Mathematical Physics, 4(5), 1–17. DOI: 10.1016/0041-5553(64)90137-5 ↗
Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning (Ch. 8: Optimization for Training Deep Models). MIT Press. ISBN: 978-0-262-03561-3

이 페이지 인용 방법

ScholarGate. (2026, June 3). Stochastic Gradient Descent with Momentum and Adaptive Moment Estimation (Adam). ScholarGate. https://scholargate.app/ko/deep-learning/stochastic-gradient-descent-with-momentum-adam-optimizer

어떤 방법일까요?

이 방법을 가장 가까운 동류의 방법들과 나란히 놓고 비교해 보세요 — 라이브러리는 책을 펼쳐 놓을 뿐, 선택은 여러분의 몫입니다.

배치 정규화딥러닝↔ 비교

나란히 비교하기 →

Related reference concepts

역전파 및 최적화 확률적 최적화 하이퍼파라미터 최적화 심층 학습 정규화 및 모델 복잡성 편향-분산 및 과적합

이 페이지에서 오류를 발견하셨나요? 신고하거나 수정을 제안하세요 →