检索模型和排名函数之间有什么区别？

检索模型是指定文档和查询如何表示以及相关性如何构思的整体框架；排名函数是模型产生的具体评分公式，例如向量空间模型中的余弦相似度或概率族中的BM25公式。

为什么在存在神经模型的情况下仍然使用BM25？

BM25速度快，不需要训练数据，参数很少，并且仍然是一个强大的基线，神经排序器通常会以此为衡量标准并与之结合使用。许多现代系统使用BM25检索初始候选集，然后由更昂贵的模型进行重新排序。

检索模型

检索模型是定义文档如何与查询匹配以及如何根据信息需求对文档进行评分和排名的形式化框架。

用 PaperMind 寻找选题即将推出Find papers & topics

Tools & resources

下载幻灯片

Learn & explore

视频即将推出

Definition

检索模型是对文档和查询表示的精确规范，以及一个排名或匹配函数，该函数在给定查询的情况下，为每个文档分配一个反映其与潜在信息需求估计相关性的分数。

Scope

本领域涵盖了用于将查询与文档匹配并对结果进行排名的主要数学模型：集合论布尔检索和扩展布尔检索、带有词项加权（如tf-idf）的代数向量空间模型、包括二元独立模型和BM25在内的概率模型，以及用于检索的统计语言模型。它处理了相关性如何形式化、词项权重如何分配以及相似性或概率得分如何产生排名。它不包括使检索高效的数据结构（在索引和查询处理中涵盖）以及模型性能的经验测量（在评估中涵盖）。

Sub-topics

Core questions

模型假设的文档和查询的形式表示是什么？
模型如何将表示转换为相关性得分或匹配决策？
如何对单个词项进行加权以反映它们在文档内部和整个集合中的重要性？
模型如何解释相关性中固有的不确定性？
模型做出了哪些假设（例如词项独立性），以及它们何时失效？

Key concepts

相关性
词项加权和tf-idf
布尔检索
向量空间和余弦相似度
概率排序原则
二元独立模型和BM25
查询似然和平滑
词项独立性假设
排名函数

Key theories

向量空间模型: 文档和查询在高维词项空间中表示为向量，通常使用tf-idf权重，相关性通过几何相似度（如查询和文档向量之间的夹角余弦）进行估计。
概率排序原则和概率检索: 根据文档与查询的相关性估计概率对其进行排名，可以在既定假设下优化检索效果；二元独立模型及其实际后代BM25通过源自相关性概率的词项加权来实现这一点。
检索的语言建模方法: 每个文档都被视为生成语言模型的一个样本，文档根据其模型生成查询的概率进行排名，并使用平滑处理未见过的查询词项。

Clinical relevance

检索模型是几乎所有搜索系统的评分核心，从图书馆目录和企业搜索到网络搜索引擎，以及问答和检索增强生成中的候选排名阶段。特别是tf-idf和BM25仍然是强大且广泛部署的基线。

History

向量空间模型起源于20世纪60年代和70年代Salton的SMART项目，为检索奠定了代数基础。与此同时，Robertson和Spärck Jones在20世纪70年代发展了相关性加权的概率理论，该理论后来发展成为BM25排名函数。Ponte和Croft于1998年引入的语言建模方法将检索重新定义为统计生成，并拓宽了建模工具包。

Key figures

Gerard Salton
Stephen E. Robertson
Karen Spärck Jones
W. Bruce Croft
C. J. van Rijsbergen

Seminal works

salton1975
robertson1976
ponte1998
manning2008

Frequently asked questions

检索模型和排名函数之间有什么区别？: 检索模型是指定文档和查询如何表示以及相关性如何构思的整体框架；排名函数是模型产生的具体评分公式，例如向量空间模型中的余弦相似度或概率族中的BM25公式。
为什么在存在神经模型的情况下仍然使用BM25？: BM25速度快，不需要训练数据，参数很少，并且仍然是一个强大的基线，神经排序器通常会以此为衡量标准并与之结合使用。许多现代系统使用BM25检索初始候选集，然后由更昂贵的模型进行重新排序。