为什么不判断集合中的所有文档？

大型集合包含数百万文档，因此为每个主题判断所有文档是不可行的。汇集仅判断贡献系统排名靠前的文档，这在保持评估工作量可控的同时，捕获了大多数相关文档。

将未判断文档视为不相关有什么风险？

后来的系统可能会检索到从未在池中出现过、因此被计为不相关的相关文档，从而不公平地降低其测量分数。这种池偏差是重用集合时采用更深、更多样化的池和对判断稳健的指标的原因。

汇集与相关性评估

汇集是一种评估方法，它通过仅判断参与系统排名靠前的文档，而非集合中的所有文档，从而使大规模信息检索评估成为可能。

用 PaperMind 寻找选题即将推出Find papers & topics

Tools & resources

下载幻灯片

Learn & explore

视频即将推出

Definition

汇集是一种用于相关性评估的抽样策略，其中将一组贡献检索运行中排名最高的文档合并（去除重复项）到一个池中，由人工评估员进行判断，池外文档通常被视为不相关。

Scope

本主题涵盖了如何高效地为大型集合收集相关性判断，主要介绍TREC和类似活动中使用的汇集方法，即来自多个系统的排名靠前文档被合并到一个池中，由评估员进行判断。它涉及池深度、将未判断文档视为不相关的处理方式、汇集集合的可重用性和潜在偏差，以及评估员的工作量和一致性。它不包括之后计算的指标以及集合本身的定义。

Core questions

汇集如何减少必须判断的文档数量？
池深度如何选择，它如何影响相关文档的覆盖率？
为什么未判断的文档通常被视为不相关，这会引入什么偏差？
对于未对池做出贡献的系统，汇集集合的可重用性如何？
评估员的工作量、一致性和质量如何管理？

Key concepts

汇集方法
池深度
贡献运行
未判断即不相关假设
池偏差和可重用性
评估员一致性
不完整相关性信息
众包相关性评估

Key theories

汇集实现可扩展评估: 通过仅判断来自许多不同系统的排名靠前文档的并集，汇集使得评估大型集合变得可行，同时仍能找到任何合理系统可能发现的大部分相关文档。
可靠性和可重用性问题: 汇集可能会低估仅由未来系统发现的相关文档，从而引发关于偏差和可重用性的问题，这促使人们采用更深的池、更多样化的贡献者以及针对不完整判断的稳健指标。

Clinical relevance

汇集使得共享的、可重用的测试集合变得经济可行，并且是数十年基准结果判断的基础。理解其假设对于重用旧集合来评估新方法（特别是可能发现原始池从未判断过的相关文档的神经网络系统）至关重要。

History

汇集方法自1992年TREC启动之初就被采纳，以使大型集合的判断变得可行。Zobel在1998年的分析考察了汇集集合的可靠性和可重用性，随后关于不完整判断的工作产生了指标和更深或更智能的汇集策略，以减轻随着集合和系统群体的演变而产生的偏差。

Key figures

Ellen M. Voorhees
Justin Zobel
Chris Buckley

Seminal works

voorhees2005
zobel1998
buckley2004

Frequently asked questions

为什么不判断集合中的所有文档？: 大型集合包含数百万文档，因此为每个主题判断所有文档是不可行的。汇集仅判断贡献系统排名靠前的文档，这在保持评估工作量可控的同时，捕获了大多数相关文档。
将未判断文档视为不相关有什么风险？: 后来的系统可能会检索到从未在池中出现过、因此被计为不相关的相关文档，从而不公平地降低其测量分数。这种池偏差是重用集合时采用更深、更多样化的池和对判断稳健的指标的原因。