统计与神经自然语言处理
现代计算语言学的核心数据驱动方法:从文本中学习的机器学习方法,涵盖统计分类器、词嵌入到基于Transformer的神经网络和大型语言模型。
用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
Learn & explore
视频即将推出
Definition
统计与神经自然语言处理是机器学习方法的主体,这些方法从数据而非手写规则中推断出语言处理能力。
Scope
涵盖主导当代自然语言处理的学习型方法——监督文本分类、分布式词表示和神经语言模型、序列到序列和Transformer架构,以及作为标志性应用的机器翻译。它将20世纪90年代的统计学革命和21世纪10年代的神经科学革命视为一个连续的轨迹。语言表征和应用在相邻领域中有所涵盖。
Sub-topics
Core questions
- 语言任务如何被构建为监督学习问题?
- 分布式表征如何捕捉词和句子的含义?
- Transformer架构为何对语言处理如此有效?
- 统计方法和随后的神经方法是如何主导该领域的?
Key concepts
- 监督学习
- 特征表示
- 词嵌入
- 神经网络
- 自注意力
- Transformer
- 迁移学习
- 大型语言模型
Key theories
- 分布式表征学习
- 将词和文本表示为从大型语料库中共现学习到的密集向量,从而使语义相似性成为几何邻近性。
- 自注意力和Transformer
- 一种通过注意力机制建模序列中所有标记之间关系的架构,实现了高度并行训练,并支撑了现代大型语言模型。
History
20世纪90年代的统计学革命用从语料库中估计的概率模型取代了手工构建的规则。21世纪10年代初的词嵌入和循环网络,随后是2017年的Transformer和大型预训练模型,在几乎所有任务中都取得了快速进展,并围绕学习到的表征重塑了该学科。
Debates
- 神经模型是否理解语言?
- 大型神经模型是捕捉了真正的语言能力和意义,还是利用了表面统计数据;这个问题推动了解释性和评估方面的持续研究。
Key figures
- Christopher Manning
- Yoshua Bengio
- Ashish Vaswani
- Tomas Mikolov
Related topics
Seminal works
- manning1999
- vaswani2017
- jurafsky2025
Frequently asked questions
- 既然有了神经模型,统计自然语言处理是否已经过时?
- 并非如此。神经自然语言处理建立在相同的统计基础之上——概率、估计和评估——并且许多概念,如平滑、分类和语言建模,都直接延续到神经环境中。