ScholarGate
助手

神经语言模型和词嵌入

学习词语和上下文的密集向量表示,从原始文本中提取——从word2vec嵌入到像BERT这样的上下文表示——将意义编码为几何。

用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
下载幻灯片
Learn & explore
视频即将推出

Definition

词嵌入是表示词语意义的密集实值向量,其学习方式使得分布相似性反映在向量空间邻近性中;上下文嵌入将其扩展到依赖于周围文本的表示。

Scope

涵盖语言的分布式和神经表示:分布式假说、静态词嵌入(如word2vec和GloVe)、神经语言模型,以及来自预训练Transformer(如BERT)的上下文嵌入。它探讨了表示如何训练、评估和迁移到下游任务。Transformer架构细节和生成在姊妹主题中涵盖。

Core questions

  • 什么是分布式假说,嵌入如何实现它?
  • word2vec如何从共现中学习词向量?
  • 上下文嵌入与静态嵌入有何不同?
  • 为什么预训练和迁移学习改变了自然语言处理?

Key concepts

  • 分布式假说
  • 词嵌入
  • word2vec
  • skip-gram
  • 上下文嵌入
  • 预训练和微调
  • 迁移学习
  • 掩码语言建模

Key theories

分布式假说
在相似上下文中出现的词语具有相似意义的观点,这是所有嵌入方法的基础,通过从共现统计中推导意义。
上下文预训练
在大型无标注文本上预训练深度双向模型,如BERT,以生成对上下文敏感的表示,这些表示可以通过少量微调迁移到许多下游任务。

History

Harris的分布式假说首先通过基于计数的向量空间模型实现,然后是Bengio的神经语言模型(2003)和Mikolov高效的word2vec(2013)。2018-2019年,ELMo和BERT等上下文模型的出现使预训练和微调成为主导范式。

Debates

嵌入究竟编码了什么?
学习到的表示是捕捉了真正的语义和句法结构,还是仅仅是训练数据中存在的共现规律和偏见,这是可解释性的核心问题。

Key figures

  • Yoshua Bengio
  • Tomas Mikolov
  • Jacob Devlin
  • Zellig Harris

Related topics

Seminal works

  • bengio2003
  • mikolov2013
  • devlin2019

Frequently asked questions

静态嵌入和上下文嵌入有什么区别?
静态嵌入为词语提供一个固定的向量,无论上下文如何,因此“bank”只有一个表示。上下文嵌入为每个出现生成不同的向量,从而区分河岸(river bank)和银行(financial bank)。

Methods for this concept

Related concepts