深度学习
深度学习通过训练具有多层神经网络来学习数据的分层表示,在视觉、语音和语言方面取得了最先进的成果。
用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
Learn & explore
视频即将推出
Definition
深度学习是机器学习的一个分支,它使用具有多层非线性处理的神经网络,以越来越高的抽象级别学习数据的表示,并通过损失函数上的梯度下降端到端地拟合参数。
Scope
该领域涵盖多层神经网络以及使其能够大规模训练的技术:从前馈网络到卷积网络和循环网络的网络架构、反向传播算法和基于梯度的优化、诸如 dropout 等正则化方法,以及深度生成模型。它探讨了深度为何能够实现组合特征的学习,以及在训练超深模型时出现的挑战。
Sub-topics
Core questions
- 为什么多层能够实现分层特征的学习?
- 如何使基于梯度的训练适用于深度网络?
- 哪些架构适合图像、序列和其他数据类型?
- 正则化和优化选择如何影响泛化?
Key theories
- 分层表示学习
- 堆叠层使网络能够将简单特征组合成越来越抽象的特征,从而使早期层检测边缘或声音,后期层检测物体或单词,这些都是从数据中自动学习的。
- 通过反向传播进行端到端训练
- 整个网络通过将其误差梯度反向传播到其各层来共同优化,从而使特征提取和预测能够一起学习,而不是手动设计。
- 深度和表达效率
- 深度网络可以比浅层网络更紧凑地表示某些函数,这与大型数据集和计算一起构成了其经验成功的基础。
Clinical relevance
深度学习推动了图像和语音识别、机器翻译以及大型语言模型的突破,并支撑了当代人工智能的大部分内容;它对大型数据集和大量计算的依赖,以及由此产生的模型的不透明性,是其部署中的核心实践和伦理考量。
History
神经网络的历史可以追溯到感知器和1986年普及的反向传播,但直到2000年代中期,深度网络才难以训练。初始化、激活函数、大型标记数据集和图形处理器计算的进步,使得深度学习革命从2012年左右开始,重塑了计算机视觉、语音和自然语言处理。
Debates
- 规模与新思想
- 最近的许多进展都来自于在更多数据和计算上训练更大的模型,这引发了关于仅靠规模能走多远与对新架构或算法思想的需求之间的争论。
Key figures
- Geoffrey Hinton
- Yann LeCun
- Yoshua Bengio
- Juergen Schmidhuber
Related topics
Seminal works
- goodfellow2016
- lecun2015
- bengio2013
Frequently asked questions
- 什么使得学习变得“深度”?
- “深度”指的是输入和输出之间非线性变换的连续层数。每一层都建立在前一层的特征之上,因此深度网络学习的是表示的层次结构,而不是单一的直接映射。
- 为什么深度学习直到最近才兴起?
- 核心思想已经存在了几十年,但训练深度网络需要大型标记数据集、快速并行硬件(如图形处理器)以及更好的初始化和激活函数等技术。这些因素在2012年左右汇聚在一起,使得感知任务取得了显著的进展。