SGD với Momentum / Thuật toán tối ưu Adam
SGD (Stochastic Gradient Descent - Giảm dần đều ngẫu nhiên) với momentum và hậu duệ thích ứng của nó là Adam là các thuật toán cập nhật tham số nền tảng được sử dụng để huấn luyện hầu hết các mô hình học sâu hiện đại. Momentum SGD được hình thức hóa bởi Polyak (1964) và được đưa vào huấn luyện mạng nơ-ron bởi Rumelhart, Hinton và Williams (1986). Adam, được giới thiệu bởi Kingma và Ba tại ICLR 2015, đã mở rộng ý tưởng momentum bằng cách cũng duy trì một trung bình trượt của các gradient bình phương, tạo ra tốc độ học thích ứng cho từng tham số, làm cho nó trở thành bộ tối ưu hóa mặc định trong thực hành học sâu đương đại.
Đọc toàn bộ phương pháp
Đăng nhập bằng tài khoản miễn phí để đọc phần này.
Bản đồ phương pháp
Lân cận của các phương pháp liên quan — chọn một nút để khám phá.
Nguồn tài liệu
- Kingma, D. P., & Ba, J. (2015). Adam: A method for stochastic optimization. International Conference on Learning Representations (ICLR 2015). arXiv:1412.6980. link ↗
- Rumelhart, D. E., Hinton, G. E., & Williams, R. J. (1986). Learning representations by back-propagating errors. Nature, 323, 533–536. DOI: 10.1038/323533a0 ↗
- Polyak, B. T. (1964). Some methods of speeding up the convergence of iteration methods. USSR Computational Mathematics and Mathematical Physics, 4(5), 1–17. DOI: 10.1016/0041-5553(64)90137-5 ↗
- Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning (Ch. 8: Optimization for Training Deep Models). MIT Press. ISBN: 978-0-262-03561-3
Cách trích dẫn trang này
ScholarGate. (2026, June 3). Stochastic Gradient Descent with Momentum and Adaptive Moment Estimation (Adam). ScholarGate. https://scholargate.app/vi/deep-learning/stochastic-gradient-descent-with-momentum-adam-optimizer
Phương pháp nào?
Đặt phương pháp này bên cạnh những phương pháp gần gũi nhất với nó và đọc chúng song song — thư viện bày sách lên bàn; lựa chọn là của bạn.
So sánh song song →Similar methods
Phát hiện lỗi trên trang này? Báo cáo hoặc đề xuất chỉnh sửa →