静态嵌入和上下文嵌入有什么区别？

静态嵌入为词语提供一个固定的向量，无论上下文如何，因此“bank”只有一个表示。上下文嵌入为每个出现生成不同的向量，从而区分河岸（river bank）和银行（financial bank）。

神经语言模型和词嵌入

学习词语和上下文的密集向量表示，从原始文本中提取——从word2vec嵌入到像BERT这样的上下文表示——将意义编码为几何。

用 PaperMind 寻找选题即将推出Find papers & topics

Tools & resources

Learn & explore

视频即将推出

词嵌入是表示词语意义的密集实值向量，其学习方式使得分布相似性反映在向量空间邻近性中；上下文嵌入将其扩展到依赖于周围文本的表示。

涵盖语言的分布式和神经表示：分布式假说、静态词嵌入（如word2vec和GloVe）、神经语言模型，以及来自预训练Transformer（如BERT）的上下文嵌入。它探讨了表示如何训练、评估和迁移到下游任务。Transformer架构细节和生成在姊妹主题中涵盖。

Harris的分布式假说首先通过基于计数的向量空间模型实现，然后是Bengio的神经语言模型（2003）和Mikolov高效的word2vec（2013）。2018-2019年，ELMo和BERT等上下文模型的出现使预训练和微调成为主导范式。

静态嵌入和上下文嵌入有什么区别？: 静态嵌入为词语提供一个固定的向量，无论上下文如何，因此“bank”只有一个表示。上下文嵌入为每个出现生成不同的向量，从而区分河岸（river bank）和银行（financial bank）。