随机优化
随机优化利用其梯度或值的噪声估计来最小化目标函数,通过数据随机子集或随机扰动而非完整、精确的目标函数来更新参数。
用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
Learn & explore
视频即将推出
Definition
随机优化是一系列迭代方法,它使用目标函数或其梯度的随机、无偏估计来更新参数估计,从而在评估完整目标函数成本过高或只能通过噪声观察时实现优化。
Scope
本主题涵盖了罗宾斯-蒙罗(Robbins-Monro)传统中的随机逼近、随机梯度下降及其小批量和动量变体、控制收敛的步长(学习率)调度、噪声与计算成本之间的权衡以及收敛性保证。强调了其在拟合大规模统计和机器学习模型中的作用。
Core questions
- 噪声梯度估计如何驱动收敛到最优值?
- 在罗宾斯-蒙罗框架中,哪些步长调度能保证收敛?
- 小批量处理如何权衡每一步的噪声与计算成本?
- 为什么随机优化对于超大型数据集至关重要?
Key concepts
- 随机逼近
- 小批量梯度
- 学习率调度
- 无偏梯度估计
- 步长衰减
- 几乎必然收敛
Key theories
- 随机逼近
- 罗宾斯-蒙罗方案通过采取步长按规定速率减小的小步,从噪声测量中找到未知函数的根,在步长序列满足一定条件下几乎必然收敛。
- 随机梯度方法
- 用来自随机数据子集的无偏估计替代完整梯度,产生廉价的更新,其平均轨迹会使目标函数下降,学习率调度平衡了收敛速度与噪声方差。
Clinical relevance
随机梯度方法使得对无法一次性处理的大型数据集进行模型拟合成为可能,它们是训练神经网络和大规模回归的主要优化策略,在这些情况下,每一步计算完整梯度将是 prohibitive。
History
罗宾斯(Robbins)和蒙罗(Monro)于1951年引入随机逼近,用于从噪声观测中寻找根,基弗(Kiefer)和沃尔福维茨(Wolfowitz)此后不久将其应用于优化;大规模机器学习的爆发使这些思想以随机梯度下降及其众多现代变体的形式复兴。
Key figures
- Herbert Robbins
- Sutton Monro
- Harold Kushner
- Jack Kiefer
Related topics
Seminal works
- robbins1951
- kushner2003
Frequently asked questions
- 为什么使用噪声梯度而不是精确梯度?
- 计算数百万数据点的精确梯度成本高昂。从小批量随机数据中估计的梯度要便宜得多,尽管有噪声,但平均而言仍指向下坡方向,因此许多廉价的噪声步骤可能胜过少数精确步骤。
- 为什么步长通常会随时间缩小?
- 减小步长可以抑制迭代逼近最优值时的梯度噪声,这是罗宾斯-蒙罗条件要求收敛的。过大的步长会使估计值在解附近来回跳动。