BLEU分数衡量什么？

BLEU衡量机器翻译与一个或多个人工参考译文在匹配词序列（n-gram）方面的重叠程度，并对过短的译文进行惩罚。它与人工判断有合理的相关性，并允许快速自动比较，尽管它不能完全捕捉意义或流畅性。

为什么机器翻译被认为是困难的？

语言在词汇、词序、形态以及它们所要求的区分方面存在差异，并且单个词和句子通常是模糊的。生成一个既忠实于源语言意义又在目标语言中自然的译文，需要同时解决这些问题，这很困难。

机器翻译

机器翻译是将文本或语音从一种自然语言自动转换为另一种自然语言，是自然语言处理领域最古老、最突出的应用之一。

用 PaperMind 寻找选题即将推出Find papers & topics

Tools & resources

下载幻灯片

Learn & explore

视频即将推出

Definition

机器翻译的任务是，对于源语言中的一个句子，使用基于规则、统计或神经网络的系统，生成目标语言中一个等效的句子，并对其充分性和流畅性进行评估。

Scope

本主题涵盖自动翻译的方法：基于规则和中间语系统，基于词和短语的统计机器翻译（包括对齐模型和语言模型），以及神经序列到序列范式；同时探讨了词对齐、流畅性与充分性、以及使用BLEU等指标进行自动评估等核心问题。它解释了翻译为何困难（歧义、语言间差异、词序）以及如何衡量质量。一般的神经网络训练方法属于机器学习子领域。

Core questions

鉴于词汇歧义和语言间的结构差异，是什么使得翻译变得困难？
如何从平行文本中学习词和短语的对应关系（对齐）？
统计和神经翻译模型如何在充分性和流畅性之间进行权衡？
如何自动且可靠地衡量翻译质量？

Key concepts

源语言和目标语言
平行语料库
词和短语对齐
翻译模型和语言模型
统计机器翻译
神经序列到序列翻译
充分性和流畅性
BLEU和自动评估

Key theories

统计机器翻译: 统计机器翻译将翻译建模为找到在给定源语言的情况下使概率最大化的目标句子，通过从平行语料库中词/短语对齐学习到的翻译模型和用于流畅性的目标语言模型进行分解。
词对齐: 从平行文本中学习哪些源词对应哪些目标词（IBM对齐模型）是一个基础组成部分，它连接了两种语言并支持短语提取。
自动评估: BLEU等指标通过n-gram重叠将系统输出与人工参考译文进行比较，实现了快速、可重复的评估，推动了进展，同时也承认了相对于人工判断的已知局限性。

Clinical relevance

机器翻译是应用最广泛的人工智能技术之一，已集成到搜索、通信和内容平台中，实现了跨语言信息访问，并为翻译人员提供了工具；其评估方法也影响了自然语言处理领域的评估。

History

机器翻译始于韦弗1949年的备忘录和早期的基于规则的系统，经受住了1966年ALPAC报告后的怀疑，随后被IBM的统计模型（Brown et al., 1993）和基于短语的统计机器翻译（SMT）所改变，并在2010年代中期再次被神经序列到序列和基于注意力的模型所革新。BLEU（2002）使整个评估过程标准化。

Key figures

Peter F. Brown
Robert L. Mercer
Philipp Koehn
Kishore Papineni
Warren Weaver

Seminal works

brown1993
papineni2002
koehn2010

Frequently asked questions

BLEU分数衡量什么？: BLEU衡量机器翻译与一个或多个人工参考译文在匹配词序列（n-gram）方面的重叠程度，并对过短的译文进行惩罚。它与人工判断有合理的相关性，并允许快速自动比较，尽管它不能完全捕捉意义或流畅性。
为什么机器翻译被认为是困难的？: 语言在词汇、词序、形态以及它们所要求的区分方面存在差异，并且单个词和句子通常是模糊的。生成一个既忠实于源语言意义又在目标语言中自然的译文，需要同时解决这些问题，这很困难。