ScholarGate
助手

汇集与相关性评估

汇集是一种评估方法,它通过仅判断参与系统排名靠前的文档,而非集合中的所有文档,从而使大规模信息检索评估成为可能。

用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
下载幻灯片
Learn & explore
视频即将推出

Definition

汇集是一种用于相关性评估的抽样策略,其中将一组贡献检索运行中排名最高的文档合并(去除重复项)到一个池中,由人工评估员进行判断,池外文档通常被视为不相关。

Scope

本主题涵盖了如何高效地为大型集合收集相关性判断,主要介绍TREC和类似活动中使用的汇集方法,即来自多个系统的排名靠前文档被合并到一个池中,由评估员进行判断。它涉及池深度、将未判断文档视为不相关的处理方式、汇集集合的可重用性和潜在偏差,以及评估员的工作量和一致性。它不包括之后计算的指标以及集合本身的定义。

Core questions

  • 汇集如何减少必须判断的文档数量?
  • 池深度如何选择,它如何影响相关文档的覆盖率?
  • 为什么未判断的文档通常被视为不相关,这会引入什么偏差?
  • 对于未对池做出贡献的系统,汇集集合的可重用性如何?
  • 评估员的工作量、一致性和质量如何管理?

Key concepts

  • 汇集方法
  • 池深度
  • 贡献运行
  • 未判断即不相关假设
  • 池偏差和可重用性
  • 评估员一致性
  • 不完整相关性信息
  • 众包相关性评估

Key theories

汇集实现可扩展评估
通过仅判断来自许多不同系统的排名靠前文档的并集,汇集使得评估大型集合变得可行,同时仍能找到任何合理系统可能发现的大部分相关文档。
可靠性和可重用性问题
汇集可能会低估仅由未来系统发现的相关文档,从而引发关于偏差和可重用性的问题,这促使人们采用更深的池、更多样化的贡献者以及针对不完整判断的稳健指标。

Clinical relevance

汇集使得共享的、可重用的测试集合变得经济可行,并且是数十年基准结果判断的基础。理解其假设对于重用旧集合来评估新方法(特别是可能发现原始池从未判断过的相关文档的神经网络系统)至关重要。

History

汇集方法自1992年TREC启动之初就被采纳,以使大型集合的判断变得可行。Zobel在1998年的分析考察了汇集集合的可靠性和可重用性,随后关于不完整判断的工作产生了指标和更深或更智能的汇集策略,以减轻随着集合和系统群体的演变而产生的偏差。

Key figures

  • Ellen M. Voorhees
  • Justin Zobel
  • Chris Buckley

Related topics

Seminal works

  • voorhees2005
  • zobel1998
  • buckley2004

Frequently asked questions

为什么不判断集合中的所有文档?
大型集合包含数百万文档,因此为每个主题判断所有文档是不可行的。汇集仅判断贡献系统排名靠前的文档,这在保持评估工作量可控的同时,捕获了大多数相关文档。
将未判断文档视为不相关有什么风险?
后来的系统可能会检索到从未在池中出现过、因此被计为不相关的相关文档,从而不公平地降低其测量分数。这种池偏差是重用集合时采用更深、更多样化的池和对判断稳健的指标的原因。

Methods for this concept

Related concepts