什么是困惑度？

困惑度衡量语言模型对保留文本的“惊讶”程度；困惑度越低，意味着模型对观察到的词语分配的概率越高，表明拟合度更好。

为什么语言建模需要平滑？

任何有限语料库都会遗漏许多有效的词序列，因此朴素模型会给它们分配零概率。平滑将少量概率质量重新分配给未见事件，以便模型能够处理新文本。

为词序列分配概率，是系统预测、评分和生成文本的基础任务——从经典的N-gram计数器到神经网络语言模型。

用 PaperMind 寻找选题即将推出Find papers & topics

Tools & resources

Learn & explore

视频即将推出

语言模型是词序列或标记（token）的概率分布，通常通过预测每个标记在其前置上下文中的概率来定义。

涵盖语言模型任务本身：估计给定上下文的词语概率、N-gram模型及其平滑技术、通过困惑度进行评估，以及向神经网络和分布式表示的过渡。它将大型语言模型定位为同一任务的现代体现。详细的神经网络架构在统计和神经自然语言处理领域中讨论。

香农的信息论将语言构建为可预测的随机源，IBM的语音识别社区在20世纪80年代将N-gram建模作为核心。Bengio及其同事于2003年引入了神经概率语言模型，播下了分布式表示方法的种子，该方法经过扩展，产生了当今的大型语言模型。

什么是困惑度？: 困惑度衡量语言模型对保留文本的“惊讶”程度；困惑度越低，意味着模型对观察到的词语分配的概率越高，表明拟合度更好。
为什么语言建模需要平滑？: 任何有限语料库都会遗漏许多有效的词序列，因此朴素模型会给它们分配零概率。平滑将少量概率质量重新分配给未见事件，以便模型能够处理新文本。