机器翻译
将文本从一种语言自动翻译成另一种语言,该领域通过词对齐模型推动了统计自然语言处理的发展,现在则依赖于神经序列到序列翻译。
用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
Learn & explore
视频即将推出
Definition
机器翻译是将文本或语音从源语言自动转换为目标语言中等效表达的过程。
Scope
涵盖语言之间的自动翻译:基于词和短语的统计模型、对齐和噪声信道框架、带注意力和Transformer的神经机器翻译,以及翻译质量评估。它涉及低资源和多语言翻译。通用的Transformer架构在相关主题中有所介绍。
Core questions
- 噪声信道模型如何将翻译构建为搜索问题?
- 如何从平行语料库中学习词和短语对齐?
- 神经机器翻译如何超越基于短语的系统?
- 如何自动和人工衡量翻译质量?
Key concepts
- 平行语料库
- 词对齐
- 基于短语的翻译
- 噪声信道模型
- 神经机器翻译
- 子词单元
- BLEU
- 低资源翻译
Key theories
- 统计词对齐模型
- Brown及其同事提出的IBM模型,通过平行文本学习词语对应关系,并以概率方式构建翻译,奠定了统计机器翻译的基础。
- 神经机器翻译
- 带有注意力的端到端编码器-解码器模型,无需显式对齐或短语表即可进行翻译,并使用子词单元处理稀有词。
History
在早期基于规则的系统令人失望之后,Brown及其同事于1993年提出的IBM模型开启了统计机器翻译的时代,并由Koehn完善为基于短语的系统。神经机器翻译在2014年至2016年左右兴起,迅速成为标准并为广泛使用的翻译服务提供支持。
Debates
- 自动评估的充分性
- BLEU等指标促进了快速进展,但与人类对流畅性和充分性的判断相关性不完美,因此在关键评估中,人工评估仍然至关重要。
Key figures
- Peter Brown
- Robert Mercer
- Philipp Koehn
- Rico Sennrich
Related topics
Seminal works
- brown1993
- papineni2002
- sennrich2016
Frequently asked questions
- 为什么机器翻译对自然语言处理的历史如此重要?
- 翻译提供了明确的目标、丰富的平行数据以及一个奖励统计方法和后来的神经方法的难题,因此机器翻译的进步反复推动了整个领域的进展。