测试集与相关性判断
测试集包含文档集、查询集和人工相关性判断,以便可重现地对检索系统进行评分和比较。
用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
Learn & explore
视频即将推出
Definition
测试集是一个固定的数据集,包含文档语料库、描述信息需求的一组查询或主题陈述,以及指定哪些文档与每个主题相关的相关性判断,共同实现检索效果的可重现测量。
Scope
本主题涵盖了遵循克兰菲尔德范式(Cranfield paradigm)的可重用信息检索(IR)测试集的构建和使用:文档语料库、定义信息需求的主题陈述,以及记录哪些文档与每个主题相关的相关性判断(qrels)。它涉及分级相关性与二元相关性、判断一致性、测试集对新系统的可重用性,以及TREC等大规模工作的作用。本主题不包括从判断中计算出的指标和用于收集这些判断的池化程序,这些是相关但独立的主题。
Core questions
- 克兰菲尔德式测试集的三个组成部分是什么?
- 信息需求如何以主题的形式表达,与提供给系统的简短查询有何不同?
- 相关性是如何定义和记录的?何时使用分级相关性?
- 人工相关性判断的一致性如何?不一致性是否会影响比较?
- 一个测试集对于未参与其构建的系统而言,其可重用性体现在何处?
Key concepts
- 文档语料库
- 主题/信息需求陈述
- 相关性判断(qrels)
- 二元相关性与分级相关性
- 评估者一致性
- 测试集可重用性
- TREC测试集
- 评估的“黄金标准”
Key theories
- 克兰菲尔德范式
- 固定文档、查询和相关性判断创建了一个受控的实验室环境,其中任何系统的排序输出都可以根据判断进行评分,从而使检索实验可重现和可比较。
- 比较对判断分歧的鲁棒性
- 尽管人工评估者对个体相关性判断存在分歧,但研究表明,系统在测试集上的相对排名在不同评估者之间基本稳定,这支持了测试集比较的有效性。
Clinical relevance
共享测试集是信息检索研究的通用“货币”,它使全球研究人员能够在相同的任务上比较系统并重现结果。来自TREC、CLEF和NTCIR等评估活动的数据集推动了数十年的进步,并仍然是新检索方法的标准基准。
History
测试集方法起源于20世纪60年代Cleverdon的克兰菲尔德实验,该实验使用固定的查询和判断来比较索引方法。1992年TREC的启动将该范式扩展到大型、真实的测试集和多项任务,从而产生了作为现代信息检索评估基础的标准化、可重用测试集。
Key figures
- Cyril Cleverdon
- Ellen M. Voorhees
- Donna Harman
Related topics
Seminal works
- cleverdon1967
- voorhees2005
Frequently asked questions
- 什么是“qrels”?
- Qrels(查询相关性判断)是记录,它针对测试集中的每个主题,说明哪些文档被判断为相关以及相关等级。评估工具将系统的排序输出与qrels进行比较,以计算效果指标。
- 人类判断者之间的分歧是否会使测试集失效?
- 评估者确实对单个文档存在分歧,但研究反复表明,系统的相对排序在不同评估者之间保持稳定。因此,尽管绝对分数会发生变化,但关于哪个系统更好的结论通常是稳健的。