ScholarGate
助手

语言模型

为词序列分配概率,是系统预测、评分和生成文本的基础任务——从经典的N-gram计数器到神经网络语言模型。

用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
下载幻灯片
Learn & explore
视频即将推出

Definition

语言模型是词序列或标记(token)的概率分布,通常通过预测每个标记在其前置上下文中的概率来定义。

Scope

涵盖语言模型任务本身:估计给定上下文的词语概率、N-gram模型及其平滑技术、通过困惑度进行评估,以及向神经网络和分布式表示的过渡。它将大型语言模型定位为同一任务的现代体现。详细的神经网络架构在统计和神经自然语言处理领域中讨论。

Core questions

  • 句子的概率如何分解为条件词概率?
  • 平滑技术如何处理训练中从未见过的词序列?
  • 困惑度如何用于评估和比较语言模型?
  • 相对于N-gram模型,神经语言模型带来了哪些改变?

Key concepts

  • N-gram
  • 马尔可夫假设
  • 平滑
  • 困惑度
  • 回退和平滑插值
  • 分布式词表示
  • 交叉熵
  • 下一词预测

Key theories

N-gram马尔可夫建模
通过仅以前n-1个词为条件来近似词的概率,将语言建模转化为一个可处理的计数和平滑问题。
神经概率语言模型
用学习分布式词表示的神经网络取代稀疏的N-gram计数,从而减轻维度灾难并实现对未见上下文的泛化。

History

香农的信息论将语言构建为可预测的随机源,IBM的语音识别社区在20世纪80年代将N-gram建模作为核心。Bengio及其同事于2003年引入了神经概率语言模型,播下了分布式表示方法的种子,该方法经过扩展,产生了当今的大型语言模型。

Debates

计数与学习表示
语言是最好通过离散序列上的平滑计数建模,还是通过学习连续表示的神经网络建模;神经方法现在占据主导地位,但继承了相同的概率目标。

Key figures

  • Claude Shannon
  • Frederick Jelinek
  • Yoshua Bengio
  • Daniel Jurafsky

Related topics

Seminal works

  • shannon1948
  • bengio2003
  • jurafsky2025

Frequently asked questions

什么是困惑度?
困惑度衡量语言模型对保留文本的“惊讶”程度;困惑度越低,意味着模型对观察到的词语分配的概率越高,表明拟合度更好。
为什么语言建模需要平滑?
任何有限语料库都会遗漏许多有效的词序列,因此朴素模型会给它们分配零概率。平滑将少量概率质量重新分配给未见事件,以便模型能够处理新文本。

Methods for this concept

Related concepts