为什么使用噪声梯度而不是精确梯度？

计算数百万数据点的精确梯度成本高昂。从小批量随机数据中估计的梯度要便宜得多，尽管有噪声，但平均而言仍指向下坡方向，因此许多廉价的噪声步骤可能胜过少数精确步骤。

为什么步长通常会随时间缩小？

减小步长可以抑制迭代逼近最优值时的梯度噪声，这是罗宾斯-蒙罗条件要求收敛的。过大的步长会使估计值在解附近来回跳动。

随机优化利用其梯度或值的噪声估计来最小化目标函数，通过数据随机子集或随机扰动而非完整、精确的目标函数来更新参数。

用 PaperMind 寻找选题即将推出Find papers & topics

Tools & resources

Learn & explore

视频即将推出

随机优化是一系列迭代方法，它使用目标函数或其梯度的随机、无偏估计来更新参数估计，从而在评估完整目标函数成本过高或只能通过噪声观察时实现优化。

本主题涵盖了罗宾斯-蒙罗（Robbins-Monro）传统中的随机逼近、随机梯度下降及其小批量和动量变体、控制收敛的步长（学习率）调度、噪声与计算成本之间的权衡以及收敛性保证。强调了其在拟合大规模统计和机器学习模型中的作用。

随机梯度方法使得对无法一次性处理的大型数据集进行模型拟合成为可能，它们是训练神经网络和大规模回归的主要优化策略，在这些情况下，每一步计算完整梯度将是 prohibitive。

罗宾斯（Robbins）和蒙罗（Monro）于1951年引入随机逼近，用于从噪声观测中寻找根，基弗（Kiefer）和沃尔福维茨（Wolfowitz）此后不久将其应用于优化；大规模机器学习的爆发使这些思想以随机梯度下降及其众多现代变体的形式复兴。

为什么使用噪声梯度而不是精确梯度？: 计算数百万数据点的精确梯度成本高昂。从小批量随机数据中估计的梯度要便宜得多，尽管有噪声，但平均而言仍指向下坡方向，因此许多廉价的噪声步骤可能胜过少数精确步骤。
为什么步长通常会随时间缩小？: 减小步长可以抑制迭代逼近最优值时的梯度噪声，这是罗宾斯-蒙罗条件要求收敛的。过大的步长会使估计值在解附近来回跳动。