评估与标注
衡量语言处理系统的方法论:构建标注语料库,量化标注者之间的一致性,以及使用允许公平比较的指标对系统输出进行评分。
用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
Learn & explore
视频即将推出
Definition
评估与标注是用于生成可靠的标注数据以及衡量计算系统重现或预测这些标注效果的一系列实践。
Scope
涵盖计算语言学的实证基础设施——人工标注方案和指南、标注者间一致性统计(如kappa系数)、训练/开发/测试集划分,以及评估指标(包括准确率、召回率、F-measure、精确度以及BLEU等特定任务分数)。它涉及有效性和可重复性问题,但不涉及单个下游系统的设计。
Core questions
- 我们如何衡量标注者是否达成一致,以及经过偶然性校正的一致性为何重要?
- 哪些指标适用于分类、序列标注和生成任务?
- 训练/开发/测试集划分如何防止过拟合和结果虚高?
- 什么使得评估在不同研究中具有可重复性和可比性?
Key concepts
- 标注者间一致性
- kappa统计量
- 准确率和召回率
- F-measure
- 训练/开发/测试集划分
- BLEU
- 标注指南
- 黄金标准
Key theories
- 偶然性校正一致性
- 标注的可靠性应使用Cohen's或Fleiss' kappa等系数来衡量,这些系数减去了偶然性预期的一致性,而非原始百分比一致性。
- 自动n-gram重叠评估
- 生成质量可以通过将系统输出与参考文本进行n-gram重叠比较来廉价地近似评估,如BLEU所示,尽管存在已知局限性,但这使得快速迭代成为可能。
History
随着语料库方法在20世纪90年代的普及,该领域需要共享的数据标注和系统评分标准。借鉴内容分析的一致性统计方法被应用于语言标注,Artstein和Poesio对其进行了权威性综述,而BLEU(2002)等指标使得生成任务的自动评估变得可行,并塑造了共享任务文化。
Debates
- 自动指标能否衡量质量?
- BLEU等指标与人类判断的相关性通常较低,特别是对于流畅的生成,这引发了关于何时自动评分可信以及何时需要人工评估的持续争论。
Key figures
- Ron Artstein
- Massimo Poesio
- Kishore Papineni
Related topics
Seminal works
- artstein2008
- papineni2002
Frequently asked questions
- 为什么不只报告准确率?
- 当类别不平衡或假阳性和假阴性具有不同重要性时,准确率可能会产生误导。对于大多数语言任务,准确率、召回率和F-measure能提供更具信息量的图景。