为什么不只报告准确率？

当类别不平衡或假阳性和假阴性具有不同重要性时，准确率可能会产生误导。对于大多数语言任务，准确率、召回率和F-measure能提供更具信息量的图景。

评估与标注

衡量语言处理系统的方法论：构建标注语料库，量化标注者之间的一致性，以及使用允许公平比较的指标对系统输出进行评分。

用 PaperMind 寻找选题即将推出Find papers & topics

Tools & resources

Learn & explore

视频即将推出

评估与标注是用于生成可靠的标注数据以及衡量计算系统重现或预测这些标注效果的一系列实践。

涵盖计算语言学的实证基础设施——人工标注方案和指南、标注者间一致性统计（如kappa系数）、训练/开发/测试集划分，以及评估指标（包括准确率、召回率、F-measure、精确度以及BLEU等特定任务分数）。它涉及有效性和可重复性问题，但不涉及单个下游系统的设计。

偶然性校正一致性: 标注的可靠性应使用Cohen's或Fleiss' kappa等系数来衡量，这些系数减去了偶然性预期的一致性，而非原始百分比一致性。
自动n-gram重叠评估: 生成质量可以通过将系统输出与参考文本进行n-gram重叠比较来廉价地近似评估，如BLEU所示，尽管存在已知局限性，但这使得快速迭代成为可能。

随着语料库方法在20世纪90年代的普及，该领域需要共享的数据标注和系统评分标准。借鉴内容分析的一致性统计方法被应用于语言标注，Artstein和Poesio对其进行了权威性综述，而BLEU（2002）等指标使得生成任务的自动评估变得可行，并塑造了共享任务文化。

为什么不只报告准确率？: 当类别不平衡或假阳性和假阴性具有不同重要性时，准确率可能会产生误导。对于大多数语言任务，准确率、召回率和F-measure能提供更具信息量的图景。