ScholarGate
助手

卷积模型与序列模型

卷积网络利用图像等网格状数据的空间结构,而循环模型和基于注意力机制的模型则处理文本和语音等序列数据。

用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
下载幻灯片
Learn & explore
视频即将推出

Definition

卷积模型在网格上应用学习到的滤波器,以便在每个位置重复使用相同的特征检测器;而序列模型通过随时间保持状态或通过关注不同位置来处理有序输入,每种架构都编码了适合其数据类型的先验假设。

Scope

本主题涵盖专门处理结构化数据的架构:用于图像和其他网格数据的具有局部滤波器、权重共享和池化的卷积神经网络;用于处理具有长程依赖关系的序列的循环网络和长短期记忆单元;以及对位置间关系进行建模的注意力机制。它探讨了使这些架构有效的归纳偏置。

Core questions

  • 卷积如何利用图像中的平移结构?
  • 为什么权重共享和池化有助于泛化和效率?
  • 循环单元和长短期记忆单元如何处理长序列?
  • 注意力机制相对于纯粹的循环处理增加了什么?

Key theories

卷积与权重共享
卷积层在所有位置应用相同的微小滤波器,显著减少了参数并内置了平移等变性,从而使在一个位置学习到的特征可以泛化到任何地方。
长短期记忆
门控循环单元(如长短期记忆)维护一个受保护的记忆单元,使得循环网络能够学习跨越许多时间步的依赖关系,这是普通循环网络无法做到的。
序列上的注意力
注意力机制允许模型直接权衡和组合来自序列所有位置的信息,捕捉长程关系并实现高度并行的序列处理。

Clinical relevance

卷积网络彻底改变了计算机视觉和医学成像领域,而序列模型则推动了语音识别和机器翻译的发展,并通过注意力机制,成为现代自然语言系统背后大型语言模型的基础;将架构与数据结构匹配仍然是应用深度学习中的核心设计原则。

History

卷积网络源于福岛邦彦(Fukushima)的感知器(neocognitron)和勒昆(LeCun)在数字识别方面的工作,它们在2012年大规模图像分类上的成功点燃了深度学习的繁荣。1997年引入的长短期记忆解决了序列数据的长程依赖问题,而注意力机制后来成为Transformer模型的基础。

Key figures

  • Yann LeCun
  • Sepp Hochreiter
  • Juergen Schmidhuber
  • Kunihiko Fukushima

Related topics

Seminal works

  • hochreiter1997
  • lecun2015
  • goodfellow2016

Frequently asked questions

为什么卷积网络在图像处理方面表现如此出色?
图像具有局部结构和可以在任何地方出现的模式。卷积在整个图像上应用相同的滤波器,因此无论特征(如边缘)出现在何处,都能被检测到,与全连接层相比,它使用的参数少得多,并且泛化能力更强。
长短期记忆解决了什么问题?
普通循环网络难以学习跨越许多时间步的依赖关系,因为梯度会消失。长短期记忆引入了一个门控记忆单元,可以在长时间间隔内保留信息,从而能够学习长程时间模式。

Methods for this concept

Related concepts