概率检索模型
概率检索模型通过估计文档与查询相关的概率来对文档进行排序,将词项加权建立在概率论的基础上。
用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
Learn & explore
视频即将推出
Definition
概率检索模型为每个文档估计其与给定查询相关的概率,并根据该概率对文档进行排序,从词项在相关文档与非相关文档中出现的相对可能性中推导出词项权重。
Scope
本主题涵盖基于概率论的检索模型:概率排序原则、二元独立模型及其相关性加权方案,以及具有词频饱和和文档长度归一化的BM25排序函数。它探讨了如何将相关性建模为概率事件,如何从相关性信息中估计词项权重,以及为什么在既定假设下,由此产生的排序在理论上是最佳的。它不包括生成式语言模型,后者将单独讨论。
Core questions
- 概率排序原则对最佳排序有何主张?
- 词项权重是如何从词项在相关文档与非相关文档中出现的概率推导出来的?
- 二元独立模型做了哪些独立性假设?
- BM25如何考虑词频饱和和文档长度?
- 相关性反馈如何优化概率估计?
Key concepts
- 相关性概率
- 概率排序原则
- 二元独立模型
- 相关性加权
- BM25 / Okapi BM25
- 词频饱和
- 文档长度归一化
- 相关性反馈
Key theories
- 概率排序原则
- 在独立相关性判断的假设下,按文档相关性概率递减的顺序对文档进行排序,可以为用户带来最佳的整体效果,为概率排序提供了理论依据。
- 二元独立模型
- 将文档视为二元词项存在向量,并假设在给定相关性的情况下词项独立出现,该模型从词项在相关文档与非相关文档中出现的几率中推导出每个词项的相关性权重。
- BM25排序函数
- 概率相关性框架的实用评分函数在相关性加权的基础上增加了非线性词频饱和和文档长度归一化,产生了一个鲁棒、可调的排序器,至今仍是领先的基线。
Clinical relevance
BM25是生产搜索系统和开源搜索引擎中部署最广泛的排序函数之一,并作为衡量神经排序器的标准强基线。概率相关性加权也构成了相关性反馈功能的基础,这些功能通过用户判断来优化结果。
History
Robertson和Spärck Jones于1976年提出的相关性加权理论以及van Rijsbergen的奠基性教科书为概率IR奠定了坚实的基础。在20世纪80年代和90年代,伦敦城市大学的Okapi项目将这些思想完善为BM25函数,该函数在TREC评估中占据主导地位。2009年的概率相关性框架调查巩固了这一家族。
Key figures
- Stephen E. Robertson
- Karen Spärck Jones
- C. J. van Rijsbergen
- Hugo Zaragoza
Related topics
Seminal works
- robertson1976
- robertson2009
- vanrijsbergen1979
Frequently asked questions
- 什么是概率排序原则?
- 它指出,如果检索系统按照文档与查询相关性概率递减的顺序对文档进行排序,那么在相关性判断独立的假设下,用户的整体效果将最大化。它是概率排序的理论基础。
- 为什么BM25尽管假设简单却如此有效?
- BM25捕捉了两个经验上重要的效应,而这些效应是更简单的权重所忽略的:重复词项出现的收益递减(饱和)以及对文档长度进行归一化的必要性。这些修正,结合类似idf的词项权重,使其成为一个非常鲁棒的排序器。