反向传播实际上计算了什么？

它计算了损失相对于每个权重的梯度，即每个权重应该改变多少才能减少误差。它通过使用链式法则将误差信号从输出层反向传播到输入层来高效地完成此操作。

为什么要在小批量数据上训练而不是一次性使用所有数据？

每次更新都使用整个数据集成本高昂且不必要。小批量随机梯度下降从小的随机样本中估计梯度，使得每一步成本低廉，允许进行更多次更新，并增加了有助于跳出局部最优解的噪声。

反向传播有效地计算网络损失相对于其权重的梯度，而基于梯度的优化器则利用该梯度来训练网络。

用 PaperMind 寻找选题即将推出Find papers & topics

Tools & resources

Learn & explore

视频即将推出

反向传播是一种算法，它通过使用链式法则将误差信号反向传播通过各层，从而计算神经网络中每个权重相对于损失函数的梯度；然后，优化通常通过随机梯度下降来更新权重，以减少损失。

本主题涵盖深度网络的训练方式：作为链式法则应用的逐层计算梯度的反向传播算法、随机梯度下降及其小批量形式、动量和自适应学习率方法，以及梯度消失和梯度爆炸、学习率选择以及非凸损失曲面收敛等实际挑战。

通过链式法则进行反向传播: 通过从输出端反向应用链式法则，该算法重用中间结果，在与前向传播成比例的时间内计算所有权重梯度，从而使大型网络的训练变得可行。
随机梯度下降: 从小批量随机样本中估计梯度使得每次更新成本低廉并引入有益的噪声，从而能够在非常大的数据集上进行训练，并通常改善泛化能力。
自适应和动量方法: 动量累积过去的梯度以平滑下降过程，而自适应方法则根据每个参数调整步长，两者都能加速深度网络中常见的病态损失曲面上的收敛。

反向传播与随机梯度下降是几乎所有现代深度学习背后的引擎；理解梯度如何流动解释了为什么深度网络在历史上难以训练，以及激活函数、初始化和优化器方面的创新如何使深度网络变得实用。

反向传播在多种背景下被推导出来，包括Werbos在1974年的论文，并由Rumelhart、Hinton和Williams在1986年推广。随机梯度下降以及后来的动量和自适应学习率优化器成为标准的训练程序，而解决梯度消失是训练深度和循环网络的关键。

反向传播实际上计算了什么？: 它计算了损失相对于每个权重的梯度，即每个权重应该改变多少才能减少误差。它通过使用链式法则将误差信号从输出层反向传播到输入层来高效地完成此操作。
为什么要在小批量数据上训练而不是一次性使用所有数据？: 每次更新都使用整个数据集成本高昂且不必要。小批量随机梯度下降从小的随机样本中估计梯度，使得每一步成本低廉，允许进行更多次更新，并增加了有助于跳出局部最优解的噪声。