为什么测试集在信息检索研究中如此核心？

包含文档、查询和相关性判断的测试集允许在完全相同的任务上对不同系统进行评分，从而使比较具有可重现性和公平性。可重用测试集还允许在每次评估新系统时无需重新收集判断。

既然存在测试集，为什么还要使用在线评估？

测试集衡量的是针对固定判断的有效性，但无法完全捕捉真实用户满意度、上下文或行为。A/B测试和交错测试等在线实验观察实际用户的反应，用行为证据补充离线指标。

信息检索中的评估

信息检索中的评估是衡量检索系统满足信息需求程度的方法论，它利用测试集、相关性判断和有效性指标。

用 PaperMind 寻找选题即将推出Find papers & topics

Tools & resources

下载幻灯片

Learn & explore

视频即将推出

Definition

信息检索评估是用于量化系统在针对既定信息需求返回相关结果方面的有效性的一系列实验方法和指标，包括离线测试集实验和在线基于用户的实验。

Scope

该领域涵盖了如何衡量检索质量：包括文档、查询和相关性判断的克兰菲尔德测试集范式；精确率、召回率、平均精确率和归一化折损累积增益等有效性指标；用于大规模收集判断的池化和评估方法；以及通过研究和受控实验（如A/B测试和交错测试）进行的以用户为中心和在线评估。它处理的是衡量有效性的科学，与被衡量的模型和系统是不同的。

Sub-topics

Core questions

如何客观地量化排序列表的质量？
什么构成可重用的测试集，以及如何判断相关性？
哪些指标能捕捉用户感知的排序质量？
如何以经济高效的方式为大型集合收集相关性判断？
在线实验如何衡量真实用户满意度？

Key concepts

测试集
相关性判断 (qrels)
精确率和召回率
平均精确率 (MAP)
归一化折损累积增益 (nDCG)
池化
交错测试和A/B测试
结果的统计显著性

Key theories

克兰菲尔德测试集范式: 通过固定文档集、查询集和人工相关性判断，然后根据判断对每个系统的输出进行评分，从而实现可控、可重复的实验，进而可重现地比较检索系统。
有效性作为可衡量构念: 从基于集合的精确率和召回率到平均精确率和折损累积增益等对排序输出的敏感度量，定义指标将搜索质量的模糊概念转化为可以在查询之间平均并进行统计比较的量化数据。
离线和在线评估的互补性: 测试集实验提供了可重现性和控制，但依赖于已判断的相关性，而A/B测试和交错测试等在线实验衡量真实用户行为，两者结合可以更全面地了解系统质量。

Clinical relevance

严格的评估使得该领域能够衡量进展并公平地比较系统；共享测试集和评估活动（如TREC）推动了数十年的进步。A/B测试和交错测试等在线评估方法是改进生产搜索和推荐系统的核心工具。

History

系统的信息检索评估始于20世纪60年代克莱弗顿的克兰菲尔德实验，该实验确立了测试集范式。由NIST于1992年发起的文本检索会议（TREC）将这种方法扩展到大型集合和多项任务，标准化了指标和池化。通过受控实验进行的在线评估随着网络规模的交互式系统而发展。

Key figures

Cyril Cleverdon
Ellen M. Voorhees
Karen Spärck Jones
Mark Sanderson

Seminal works

cleverdon1967
voorhees2005
sanderson2010

Frequently asked questions

为什么测试集在信息检索研究中如此核心？: 包含文档、查询和相关性判断的测试集允许在完全相同的任务上对不同系统进行评分，从而使比较具有可重现性和公平性。可重用测试集还允许在每次评估新系统时无需重新收集判断。
既然存在测试集，为什么还要使用在线评估？: 测试集衡量的是针对固定判断的有效性，但无法完全捕捉真实用户满意度、上下文或行为。A/B测试和交错测试等在线实验观察实际用户的反应，用行为证据补充离线指标。