ScholarGate
助手

计算形态学

通过机器对词语内部结构进行建模——包括分析、生成、词干提取、词形还原和子词切分——从有限状态形态学到现代神经网络系统使用的字节对编码。

用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
下载幻灯片
Learn & explore
视频即将推出

Definition

计算形态学是根据词素及其形态特征对词形进行算法分析和生成。

Scope

涵盖词语结构的计算处理:使用有限状态转换器进行形态分析和生成、双层形态学、词干提取和词形还原,以及数据驱动的子词切分,如字节对编码。它涉及跨越不同类型语言的屈折、派生和复合。底层的有限状态机制在基础领域有详细阐述。

Core questions

  • 如何使用有限状态转换器对形态交替进行建模?
  • 词干提取和词形还原有什么区别?
  • 子词切分如何在神经网络模型中处理罕见词和未见词?
  • 为什么粘着语和模板语的形态学更难处理?

Key concepts

  • 词素
  • 屈折和派生
  • 双层形态学
  • 有限状态转换器
  • 词干提取
  • 词形还原
  • 字节对编码
  • 粘着

Key theories

双层形态学
Koskenniemi 的模型通过并行的有限状态规则关联表层和词汇词形,使得单一语法能够同时分析和生成词形。
数据驱动的子词切分
学习频繁字符序列的词汇表,如字节对编码,以便神经网络模型可以将任何词表示为子词单元序列。

History

Koskenniemi 于 1983 年提出的双层形态学确立了有限状态方法作为形态处理的标准,并在 Beesley 和 Karttunen 的手册中得到巩固。随着神经网络模型的兴起,手工构建的形态分析器得到了学习型子词切分(如字节对编码)的补充,后者在处理罕见词时避开了显式形态学。

Debates

显式形态学与子词单元
神经网络系统是否需要语言学上知情的形态分析,或者统计子词切分是否足够;答案似乎取决于语言类型和数据规模。

Key figures

  • Kimmo Koskenniemi
  • Lauri Karttunen
  • Kenneth Beesley
  • Rico Sennrich

Related topics

Seminal works

  • koskenniemi1983
  • beesley2003
  • sennrich2016

Frequently asked questions

词干提取和词形还原有什么区别?
词干提取粗略地将词缀切除以得到一个共同的词干(例如,将 'studies' 变为 'studi'),而词形还原则利用形态学知识将词映射到其字典形式(例如,将 'studies' 变为 'study')。

Methods for this concept

Related concepts