为什么仅凭准确率不足以评估搜索系统？

准确率衡量检索结果中相关项的数量，但忽略了错过的相关文档数量，而召回率则捕捉了这一点。一个系统可以通过返回一个明显相关的结果而忽略许多其他结果来获得完美的准确率，因此通常将两者结合考虑或组合成排序敏感度量。

nDCG比平均平均准确率有什么优势？

nDCG使用分级相关性，区分高度相关和边缘相关的结果，并明确折损较低排名的增益。这使其非常适合网络搜索，因为用户最关心最靠前的结果，并且相关性并非简单的“是”或“否”。

信息检索有效性度量

有效性度量将排序结果列表转化为一个数字，反映其满足信息需求的能力，从而能够对系统进行比较并在不同查询中取平均值。

用 PaperMind 寻找选题即将推出Find papers & topics

Tools & resources

下载幻灯片

Learn & explore

视频即将推出

Definition

信息检索有效性度量是一种函数，它将系统针对一个或多个查询的排序输出与相关性判断相结合，映射为一个量化检索质量的分数，不同的度量侧重于召回率、早期准确率或靠前排名的分级增益。

Scope

本主题涵盖用于评估检索输出的度量标准：基于集合的准确率（precision）和召回率（recall）及其F-measure组合，以及包括前k项准确率（precision at k）、平均准确率（average precision）和平均平均准确率（mean average precision）、倒数排名（reciprocal rank）在内的排序敏感度量，以及折损累积增益（discounted cumulative gain）及其归一化形式等基于增益的度量。它探讨了每种度量所奖励的方面、度量如何处理分级相关性和不完整判断，以及分数如何聚合和进行显著性检验。它不包括提供相关性数据的集合和判断。

Core questions

准确率和召回率如何捕捉检索质量的互补方面？
当用户自上而下浏览结果时，为什么需要排序敏感度量？
平均准确率如何将排序列表总结为一个单一数字？
nDCG等基于增益的度量如何使用分级相关性和排序折损？
不完整相关性判断如何影响度量？

Key concepts

准确率和召回率
F-measure
前k项准确率
平均准确率和MAP
平均倒数排名（MRR）
折损累积增益（DCG / nDCG）
分级相关性
针对不完整判断的稳健度量（bpref）

Key theories

准确率、召回率和平均准确率: 准确率和召回率分别衡量检索到的相关项的比例和检索到的相关项占所有相关项的比例；平均准确率将单个查询的准确率整合到不同召回水平，其在查询上的平均值（MAP）是排序检索的标准总结。
折损累积增益: 基于增益的评估根据分级相关性为每个结果分配增益，并对较低排名的增益进行折损，然后根据理想排名进行归一化，从而得到nDCG，它奖励将高度相关项放置在靠前位置。
不完整判断下的评估: 当并非所有文档都经过判断时，朴素的度量可能存在偏差，这促使人们开发了bpref和推断AP等度量，它们对大型或合并集合中未判断的文档更具鲁棒性。

Clinical relevance

有效性度量是检索研究和行业衡量进展并在系统之间进行选择的衡量标准。特别是nDCG和MAP，在评估活动和生产离线测试中是常规使用的，度量选择决定了排序系统优化所产生的行为。

History

准确率和召回率可追溯到最早的信息检索实验，平均准确率成为TREC特设评估的主力。Järvelin和Kekäläinen在2002年提出的累积增益度量引入了分级相关性、排序折损评估，产生了nDCG，它在网络式排序中占据主导地位。针对不完整判断的研究产生了适用于大型集合的稳健度量。

Key figures

Kalervo Järvelin
Jaana Kekäläinen
Ellen M. Voorhees
Chris Buckley

Seminal works

manning2008
jarvelin2002
buckley2004

Frequently asked questions

为什么仅凭准确率不足以评估搜索系统？: 准确率衡量检索结果中相关项的数量，但忽略了错过的相关文档数量，而召回率则捕捉了这一点。一个系统可以通过返回一个明显相关的结果而忽略许多其他结果来获得完美的准确率，因此通常将两者结合考虑或组合成排序敏感度量。
nDCG比平均平均准确率有什么优势？: nDCG使用分级相关性，区分高度相关和边缘相关的结果，并明确折损较低排名的增益。这使其非常适合网络搜索，因为用户最关心最靠前的结果，并且相关性并非简单的“是”或“否”。