为什么计算语言学家关心乔姆斯基层级？

它告诉您一个现象所需的最小计算机制：正则模式可以通过快速的有限状态工具处理，而像嵌套从句这样的现象至少需要上下文无关的能力。选择正确的级别可以使系统既足够又高效。

语言建模与大型语言模型相同吗？

它们共享相同的核心任务——为词序列分配概率——但经典的语言模型是N-gram计数器，而现代大型语言模型使用神经网络。基本思想是相同的；估计方法不同。

计算语言学基础

计算语言学的数学和方法论基石：形式文法、自动机、有限状态技术、概率语言模型，以及使系统能够进行严格比较的评估实践。

用 PaperMind 寻找选题即将推出Find papers & topics

Tools & resources

下载幻灯片

Learn & explore

视频即将推出

Definition

计算语言学基础是研究用于机器表示和处理自然语言的形式、算法和统计原语的学科。

Scope

该领域涵盖了语言计算处理所依赖的抽象概念。它包括乔姆斯基形式语言层级及其识别自动机、作为分词和形态学实用工具的正则表达式和有限状态转换器、N-gram和概率语言模型，以及支撑实证工作的实验机制——语料库、标注、训练/测试划分和评估指标。它不包括具体的下游应用和深度解析，这些内容在各自的领域中进行处理。

Sub-topics

Core questions

存在哪些形式语言类别，哪些自动机可以识别它们？
有限状态方法如何有效地建模分词、拼写和形态学？
我们如何为词序列分配概率，这为什么有帮助？
语言处理系统应如何评估，以使结果具有可比性和可重复性？

Key concepts

乔姆斯基层级
有限状态自动机
正则表达式
上下文无关文法
N-gram模型
平滑
困惑度
语料库和标注

Key theories

乔姆斯基层级: 一个形式语言类别（正则、上下文无关、上下文相关、递归可枚举）的包含层级，每个类别都与一类文法和一台抽象机器相关联，它构成了描述自然语言现象所需计算能力的框架。
概率语言建模: 将语言视为一个随机过程，并通过平滑的N-gram模型等经典方法估计词序列的概率，为语音识别、拼写校正和生成提供了基础。

History

计算语言学从20世纪50年代的形式语言理论（乔姆斯基）和信息论（香农）工作中继承了其形式核心，这两者共同提出了符号文法和概率语言模型。有限状态方法在20世纪80年代成熟，成为形态学和音系学的有效工具，而20世纪90年代的统计革命（由Manning和Schütze记录）使基于语料库的概率建模成为主导的实证范式。

Debates

符号文法与统计模型之争: 自然语言是最好通过人工构建的形式规则捕捉，还是通过从数据中估计的概率分布捕捉；该领域已基本趋向于混合和数据驱动的方法，同时保留形式文法作为分析工具。

Key figures

Noam Chomsky
Claude Shannon
Daniel Jurafsky
James H. Martin
Christopher Manning

Seminal works

chomsky1956
manning1999
jurafsky2025

Frequently asked questions

为什么计算语言学家关心乔姆斯基层级？: 它告诉您一个现象所需的最小计算机制：正则模式可以通过快速的有限状态工具处理，而像嵌套从句这样的现象至少需要上下文无关的能力。选择正确的级别可以使系统既足够又高效。
语言建模与大型语言模型相同吗？: 它们共享相同的核心任务——为词序列分配概率——但经典的语言模型是N-gram计数器，而现代大型语言模型使用神经网络。基本思想是相同的；估计方法不同。