检索模型
检索模型是定义文档如何与查询匹配以及如何根据信息需求对文档进行评分和排名的形式化框架。
用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
Learn & explore
视频即将推出
Definition
检索模型是对文档和查询表示的精确规范,以及一个排名或匹配函数,该函数在给定查询的情况下,为每个文档分配一个反映其与潜在信息需求估计相关性的分数。
Scope
本领域涵盖了用于将查询与文档匹配并对结果进行排名的主要数学模型:集合论布尔检索和扩展布尔检索、带有词项加权(如tf-idf)的代数向量空间模型、包括二元独立模型和BM25在内的概率模型,以及用于检索的统计语言模型。它处理了相关性如何形式化、词项权重如何分配以及相似性或概率得分如何产生排名。它不包括使检索高效的数据结构(在索引和查询处理中涵盖)以及模型性能的经验测量(在评估中涵盖)。
Sub-topics
Core questions
- 模型假设的文档和查询的形式表示是什么?
- 模型如何将表示转换为相关性得分或匹配决策?
- 如何对单个词项进行加权以反映它们在文档内部和整个集合中的重要性?
- 模型如何解释相关性中固有的不确定性?
- 模型做出了哪些假设(例如词项独立性),以及它们何时失效?
Key concepts
- 相关性
- 词项加权和tf-idf
- 布尔检索
- 向量空间和余弦相似度
- 概率排序原则
- 二元独立模型和BM25
- 查询似然和平滑
- 词项独立性假设
- 排名函数
Key theories
- 向量空间模型
- 文档和查询在高维词项空间中表示为向量,通常使用tf-idf权重,相关性通过几何相似度(如查询和文档向量之间的夹角余弦)进行估计。
- 概率排序原则和概率检索
- 根据文档与查询的相关性估计概率对其进行排名,可以在既定假设下优化检索效果;二元独立模型及其实际后代BM25通过源自相关性概率的词项加权来实现这一点。
- 检索的语言建模方法
- 每个文档都被视为生成语言模型的一个样本,文档根据其模型生成查询的概率进行排名,并使用平滑处理未见过的查询词项。
Clinical relevance
检索模型是几乎所有搜索系统的评分核心,从图书馆目录和企业搜索到网络搜索引擎,以及问答和检索增强生成中的候选排名阶段。特别是tf-idf和BM25仍然是强大且广泛部署的基线。
History
向量空间模型起源于20世纪60年代和70年代Salton的SMART项目,为检索奠定了代数基础。与此同时,Robertson和Spärck Jones在20世纪70年代发展了相关性加权的概率理论,该理论后来发展成为BM25排名函数。Ponte和Croft于1998年引入的语言建模方法将检索重新定义为统计生成,并拓宽了建模工具包。
Key figures
- Gerard Salton
- Stephen E. Robertson
- Karen Spärck Jones
- W. Bruce Croft
- C. J. van Rijsbergen
Related topics
Seminal works
- salton1975
- robertson1976
- ponte1998
- manning2008
Frequently asked questions
- 检索模型和排名函数之间有什么区别?
- 检索模型是指定文档和查询如何表示以及相关性如何构思的整体框架;排名函数是模型产生的具体评分公式,例如向量空间模型中的余弦相似度或概率族中的BM25公式。
- 为什么在存在神经模型的情况下仍然使用BM25?
- BM25速度快,不需要训练数据,参数很少,并且仍然是一个强大的基线,神经排序器通常会以此为衡量标准并与之结合使用。许多现代系统使用BM25检索初始候选集,然后由更昂贵的模型进行重新排序。