计算形态学
通过机器对词语内部结构进行建模——包括分析、生成、词干提取、词形还原和子词切分——从有限状态形态学到现代神经网络系统使用的字节对编码。
用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
Learn & explore
视频即将推出
Definition
计算形态学是根据词素及其形态特征对词形进行算法分析和生成。
Scope
涵盖词语结构的计算处理:使用有限状态转换器进行形态分析和生成、双层形态学、词干提取和词形还原,以及数据驱动的子词切分,如字节对编码。它涉及跨越不同类型语言的屈折、派生和复合。底层的有限状态机制在基础领域有详细阐述。
Core questions
- 如何使用有限状态转换器对形态交替进行建模?
- 词干提取和词形还原有什么区别?
- 子词切分如何在神经网络模型中处理罕见词和未见词?
- 为什么粘着语和模板语的形态学更难处理?
Key concepts
- 词素
- 屈折和派生
- 双层形态学
- 有限状态转换器
- 词干提取
- 词形还原
- 字节对编码
- 粘着
Key theories
- 双层形态学
- Koskenniemi 的模型通过并行的有限状态规则关联表层和词汇词形,使得单一语法能够同时分析和生成词形。
- 数据驱动的子词切分
- 学习频繁字符序列的词汇表,如字节对编码,以便神经网络模型可以将任何词表示为子词单元序列。
History
Koskenniemi 于 1983 年提出的双层形态学确立了有限状态方法作为形态处理的标准,并在 Beesley 和 Karttunen 的手册中得到巩固。随着神经网络模型的兴起,手工构建的形态分析器得到了学习型子词切分(如字节对编码)的补充,后者在处理罕见词时避开了显式形态学。
Debates
- 显式形态学与子词单元
- 神经网络系统是否需要语言学上知情的形态分析,或者统计子词切分是否足够;答案似乎取决于语言类型和数据规模。
Key figures
- Kimmo Koskenniemi
- Lauri Karttunen
- Kenneth Beesley
- Rico Sennrich
Related topics
Seminal works
- koskenniemi1983
- beesley2003
- sennrich2016
Frequently asked questions
- 词干提取和词形还原有什么区别?
- 词干提取粗略地将词缀切除以得到一个共同的词干(例如,将 'studies' 变为 'studi'),而词形还原则利用形态学知识将词映射到其字典形式(例如,将 'studies' 变为 'study')。