ScholarGate
助手

正则表达式与有限状态方法

基于正则语言的实用技术——使用正则表达式进行模式匹配,以及使用有限状态转换器进行字符串到字符串的映射——能够高效处理分词、规范化和形态分析。

用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
下载幻灯片
Learn & explore
视频即将推出

Definition

有限状态方法是语言处理技术,其中模式和映射表示为正则表达式或有限状态自动机和转换器,从而保证高效的线性时间识别。

Scope

涵盖作为字符串模式语言的正则表达式,作为其计算实现的有限状态自动机和转换器,以及它们在文本规范化、分词、拼写和计算形态学中的应用。它包括语音和浅层处理中使用的加权有限状态方法。完整的音韵学理论和深层句法分析不在其范围之内。

Core questions

  • 正则表达式如何精确地指定和提取文本模式?
  • 有限状态转换器如何将表层形式映射到词汇分析,例如在形态学中?
  • 为什么在分词和规范化中首选有限状态方法?

Key concepts

  • 正则表达式
  • 有限状态转换器
  • 分词
  • 文本规范化
  • 形态分析
  • 双层形态学
  • 加权自动机
  • 编辑距离

Key theories

形态学和音韵学的正则模型
音韵重写规则和形态交替可以编译成有限状态转换器,使得分析和生成成为一个高效的统一框架。
正则表达式与有限自动机的等价性
正则表达式、正则文法和有限状态自动机都精确地描述了正则语言,因此声明性模式可以被编译成高效的识别器。

History

正则表达式从克莱尼(Kleene)的工作进入计算机领域,并在文本工具中变得无处不在。在20世纪80年代,科斯肯涅米(Koskenniemi)的双层形态学以及卡普兰(Kaplan)和凯(Kay)将音韵规则编译成转换器的工作,确立了有限状态技术作为形态处理的主力,这种方法在比斯利(Beesley)和卡尔图宁(Karttunen)的手册中得到了巩固。

Debates

有限状态方法能扩展到何种程度?
有限状态技术效率极高,但仅限于正则现象;争论在于哪些语言处理任务仍最适合使用它们,而非更丰富的统计或神经网络模型。

Key figures

  • Martin Kay
  • Ronald Kaplan
  • Kimmo Koskenniemi
  • Lauri Karttunen

Related topics

Seminal works

  • kaplan1994
  • beesley2003

Frequently asked questions

为什么在形态学中要使用有限状态转换器而不是仅仅使用查找表?
转换器能够紧凑地编码系统性交替,并且可以分析或生成它从未见过的词形,而查找表只存储其中明确列出的形式。

Methods for this concept

Related concepts