为什么卷积网络在图像处理方面表现如此出色？

图像具有局部结构和可以在任何地方出现的模式。卷积在整个图像上应用相同的滤波器，因此无论特征（如边缘）出现在何处，都能被检测到，与全连接层相比，它使用的参数少得多，并且泛化能力更强。

长短期记忆解决了什么问题？

普通循环网络难以学习跨越许多时间步的依赖关系，因为梯度会消失。长短期记忆引入了一个门控记忆单元，可以在长时间间隔内保留信息，从而能够学习长程时间模式。

卷积网络利用图像等网格状数据的空间结构，而循环模型和基于注意力机制的模型则处理文本和语音等序列数据。

用 PaperMind 寻找选题即将推出Find papers & topics

Tools & resources

Learn & explore

视频即将推出

卷积模型在网格上应用学习到的滤波器，以便在每个位置重复使用相同的特征检测器；而序列模型通过随时间保持状态或通过关注不同位置来处理有序输入，每种架构都编码了适合其数据类型的先验假设。

本主题涵盖专门处理结构化数据的架构：用于图像和其他网格数据的具有局部滤波器、权重共享和池化的卷积神经网络；用于处理具有长程依赖关系的序列的循环网络和长短期记忆单元；以及对位置间关系进行建模的注意力机制。它探讨了使这些架构有效的归纳偏置。

卷积网络彻底改变了计算机视觉和医学成像领域，而序列模型则推动了语音识别和机器翻译的发展，并通过注意力机制，成为现代自然语言系统背后大型语言模型的基础；将架构与数据结构匹配仍然是应用深度学习中的核心设计原则。

卷积网络源于福岛邦彦（Fukushima）的感知器（neocognitron）和勒昆（LeCun）在数字识别方面的工作，它们在2012年大规模图像分类上的成功点燃了深度学习的繁荣。1997年引入的长短期记忆解决了序列数据的长程依赖问题，而注意力机制后来成为Transformer模型的基础。

为什么卷积网络在图像处理方面表现如此出色？: 图像具有局部结构和可以在任何地方出现的模式。卷积在整个图像上应用相同的滤波器，因此无论特征（如边缘）出现在何处，都能被检测到，与全连接层相比，它使用的参数少得多，并且泛化能力更强。
长短期记忆解决了什么问题？: 普通循环网络难以学习跨越许多时间步的依赖关系，因为梯度会消失。长短期记忆引入了一个门控记忆单元，可以在长时间间隔内保留信息，从而能够学习长程时间模式。