神经语言模型和词嵌入
学习词语和上下文的密集向量表示,从原始文本中提取——从word2vec嵌入到像BERT这样的上下文表示——将意义编码为几何。
用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
Learn & explore
视频即将推出
Definition
词嵌入是表示词语意义的密集实值向量,其学习方式使得分布相似性反映在向量空间邻近性中;上下文嵌入将其扩展到依赖于周围文本的表示。
Scope
涵盖语言的分布式和神经表示:分布式假说、静态词嵌入(如word2vec和GloVe)、神经语言模型,以及来自预训练Transformer(如BERT)的上下文嵌入。它探讨了表示如何训练、评估和迁移到下游任务。Transformer架构细节和生成在姊妹主题中涵盖。
Core questions
- 什么是分布式假说,嵌入如何实现它?
- word2vec如何从共现中学习词向量?
- 上下文嵌入与静态嵌入有何不同?
- 为什么预训练和迁移学习改变了自然语言处理?
Key concepts
- 分布式假说
- 词嵌入
- word2vec
- skip-gram
- 上下文嵌入
- 预训练和微调
- 迁移学习
- 掩码语言建模
Key theories
- 分布式假说
- 在相似上下文中出现的词语具有相似意义的观点,这是所有嵌入方法的基础,通过从共现统计中推导意义。
- 上下文预训练
- 在大型无标注文本上预训练深度双向模型,如BERT,以生成对上下文敏感的表示,这些表示可以通过少量微调迁移到许多下游任务。
History
Harris的分布式假说首先通过基于计数的向量空间模型实现,然后是Bengio的神经语言模型(2003)和Mikolov高效的word2vec(2013)。2018-2019年,ELMo和BERT等上下文模型的出现使预训练和微调成为主导范式。
Debates
- 嵌入究竟编码了什么?
- 学习到的表示是捕捉了真正的语义和句法结构,还是仅仅是训练数据中存在的共现规律和偏见,这是可解释性的核心问题。
Key figures
- Yoshua Bengio
- Tomas Mikolov
- Jacob Devlin
- Zellig Harris
Related topics
Seminal works
- bengio2003
- mikolov2013
- devlin2019
Frequently asked questions
- 静态嵌入和上下文嵌入有什么区别?
- 静态嵌入为词语提供一个固定的向量,无论上下文如何,因此“bank”只有一个表示。上下文嵌入为每个出现生成不同的向量,从而区分河岸(river bank)和银行(financial bank)。