语言模型
为词序列分配概率,是系统预测、评分和生成文本的基础任务——从经典的N-gram计数器到神经网络语言模型。
用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
Learn & explore
视频即将推出
Definition
语言模型是词序列或标记(token)的概率分布,通常通过预测每个标记在其前置上下文中的概率来定义。
Scope
涵盖语言模型任务本身:估计给定上下文的词语概率、N-gram模型及其平滑技术、通过困惑度进行评估,以及向神经网络和分布式表示的过渡。它将大型语言模型定位为同一任务的现代体现。详细的神经网络架构在统计和神经自然语言处理领域中讨论。
Core questions
- 句子的概率如何分解为条件词概率?
- 平滑技术如何处理训练中从未见过的词序列?
- 困惑度如何用于评估和比较语言模型?
- 相对于N-gram模型,神经语言模型带来了哪些改变?
Key concepts
- N-gram
- 马尔可夫假设
- 平滑
- 困惑度
- 回退和平滑插值
- 分布式词表示
- 交叉熵
- 下一词预测
Key theories
- N-gram马尔可夫建模
- 通过仅以前n-1个词为条件来近似词的概率,将语言建模转化为一个可处理的计数和平滑问题。
- 神经概率语言模型
- 用学习分布式词表示的神经网络取代稀疏的N-gram计数,从而减轻维度灾难并实现对未见上下文的泛化。
History
香农的信息论将语言构建为可预测的随机源,IBM的语音识别社区在20世纪80年代将N-gram建模作为核心。Bengio及其同事于2003年引入了神经概率语言模型,播下了分布式表示方法的种子,该方法经过扩展,产生了当今的大型语言模型。
Debates
- 计数与学习表示
- 语言是最好通过离散序列上的平滑计数建模,还是通过学习连续表示的神经网络建模;神经方法现在占据主导地位,但继承了相同的概率目标。
Key figures
- Claude Shannon
- Frederick Jelinek
- Yoshua Bengio
- Daniel Jurafsky
Related topics
Seminal works
- shannon1948
- bengio2003
- jurafsky2025
Frequently asked questions
- 什么是困惑度?
- 困惑度衡量语言模型对保留文本的“惊讶”程度;困惑度越低,意味着模型对观察到的词语分配的概率越高,表明拟合度更好。
- 为什么语言建模需要平滑?
- 任何有限语料库都会遗漏许多有效的词序列,因此朴素模型会给它们分配零概率。平滑将少量概率质量重新分配给未见事件,以便模型能够处理新文本。