自监督学习与表征学习
自监督学习和表征学习通过从数据本身发明预测任务,从未标记数据中创建有用的特征,从而生成可迁移到许多下游问题的表征。
用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
Learn & explore
视频即将推出
Definition
自监督学习通过自动从输入中派生标签的任务来训练模型,例如预测数据的隐藏部分或识别两个增强视图为同一项,从而使模型学习可用于后续监督任务的通用表征。
Scope
本主题涵盖无需人工标注的表征学习:压缩和重建输入的自编码器、将相关视图拉近并推开不相关视图的对比方法,以及将未标注数据转化为监督信号的预文本或掩码预测任务。它探讨了良好表征的重要性以及预训练特征如何在不同任务之间迁移。
Core questions
- 如何从未标注数据中生成监督式训练信号?
- 什么使学习到的表征有用且可迁移?
- 对比目标和重建目标有何不同?
- 为什么在大型未标注语料库上进行预训练有助于下游任务?
Key theories
- 表征学习
- 学习到的表征的质量,而非分类器的选择,通常决定了性能,因此学习能够解耦底层变异因素的特征是核心目标。
- 自编码与重建
- 自编码器通过瓶颈重建其输入来学习紧凑的代码,而诸如去噪自编码器之类的变体通过重建损坏的输入来学习鲁棒特征。
- 预训练与迁移
- 在大型未标注数据集上通过自监督目标预训练的模型学习到广泛有用的特征,这些特征只需少量标注数据即可迁移到许多下游任务,这是现代系统的核心范式。
Clinical relevance
自监督预训练是现代语言和视觉系统的基础,它允许模型在适应特定有限标注任务之前,从大量未标注语料库中吸收知识;它显著减少了实现强大性能所需的标注数据量,是人工智能近期取得重大进展的主要原因。
History
表征学习起源于21世纪初的自编码器和深度网络的无监督预训练。后来,包括语言中的掩码预测和视觉中的对比学习在内的自监督目标被证明能够学习强大的通用表征,成为预训练大型模型的主导方法。
Key figures
- Yoshua Bengio
- Geoffrey Hinton
- Yann LeCun
Related topics
Seminal works
- bengio2013
- goodfellow2016
- lecun2015
Frequently asked questions
- 自监督学习与无监督学习有何不同?
- 自监督学习是一种无监督学习形式,其中模型通过监督式目标进行训练,其目标是自动从数据中生成,例如通过隐藏输入的一部分并进行预测。它不使用人工标注,但仍将学习框定为预测。
- 为什么好的表征如此有价值?
- 一旦数据被编码成能够捕捉其基本结构的表征,即使是简单的模型也能表现良好,并且相同的表征可以服务于许多任务。从无标注数据中学习这种可迁移的特征正是预训练如此有效的原因。