ScholarGate
助手

计算语言学基础

计算语言学的数学和方法论基石:形式文法、自动机、有限状态技术、概率语言模型,以及使系统能够进行严格比较的评估实践。

用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
下载幻灯片
Learn & explore
视频即将推出

Definition

计算语言学基础是研究用于机器表示和处理自然语言的形式、算法和统计原语的学科。

Scope

该领域涵盖了语言计算处理所依赖的抽象概念。它包括乔姆斯基形式语言层级及其识别自动机、作为分词和形态学实用工具的正则表达式和有限状态转换器、N-gram和概率语言模型,以及支撑实证工作的实验机制——语料库、标注、训练/测试划分和评估指标。它不包括具体的下游应用和深度解析,这些内容在各自的领域中进行处理。

Sub-topics

Core questions

  • 存在哪些形式语言类别,哪些自动机可以识别它们?
  • 有限状态方法如何有效地建模分词、拼写和形态学?
  • 我们如何为词序列分配概率,这为什么有帮助?
  • 语言处理系统应如何评估,以使结果具有可比性和可重复性?

Key concepts

  • 乔姆斯基层级
  • 有限状态自动机
  • 正则表达式
  • 上下文无关文法
  • N-gram模型
  • 平滑
  • 困惑度
  • 语料库和标注

Key theories

乔姆斯基层级
一个形式语言类别(正则、上下文无关、上下文相关、递归可枚举)的包含层级,每个类别都与一类文法和一台抽象机器相关联,它构成了描述自然语言现象所需计算能力的框架。
概率语言建模
将语言视为一个随机过程,并通过平滑的N-gram模型等经典方法估计词序列的概率,为语音识别、拼写校正和生成提供了基础。

History

计算语言学从20世纪50年代的形式语言理论(乔姆斯基)和信息论(香农)工作中继承了其形式核心,这两者共同提出了符号文法和概率语言模型。有限状态方法在20世纪80年代成熟,成为形态学和音系学的有效工具,而20世纪90年代的统计革命(由Manning和Schütze记录)使基于语料库的概率建模成为主导的实证范式。

Debates

符号文法与统计模型之争
自然语言是最好通过人工构建的形式规则捕捉,还是通过从数据中估计的概率分布捕捉;该领域已基本趋向于混合和数据驱动的方法,同时保留形式文法作为分析工具。

Key figures

  • Noam Chomsky
  • Claude Shannon
  • Daniel Jurafsky
  • James H. Martin
  • Christopher Manning

Related topics

Seminal works

  • chomsky1956
  • manning1999
  • jurafsky2025

Frequently asked questions

为什么计算语言学家关心乔姆斯基层级?
它告诉您一个现象所需的最小计算机制:正则模式可以通过快速的有限状态工具处理,而像嵌套从句这样的现象至少需要上下文无关的能力。选择正确的级别可以使系统既足够又高效。
语言建模与大型语言模型相同吗?
它们共享相同的核心任务——为词序列分配概率——但经典的语言模型是N-gram计数器,而现代大型语言模型使用神经网络。基本思想是相同的;估计方法不同。

Methods for this concept

Related concepts