ScholarGate
助手

布尔检索和扩展布尔检索

布尔检索根据由逻辑运算符AND、OR和NOT组合而成的术语查询来匹配文档,并返回精确满足查询条件的文档集合。

用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
下载幻灯片
Learn & explore
视频即将推出

Definition

布尔检索将每个文档表示为一个术语集合,将每个查询表示为一个布尔表达式,并精确返回其术语集合使该表达式为真的文档;扩展布尔检索通过分配部分匹配度来放宽这种全有或全无的语义,从而可以对结果进行排名。

Scope

本主题涵盖了经典的布尔检索模型,其中查询是基于术语的逻辑表达式,文档要么满足要么不满足该表达式;以及其扩展,这些扩展通过软化严格的集合论语义来生成排名,特别是扩展布尔(p范数)模型。它涉及查询语法、倒排列表上的集合操作、精确匹配检索的优点,以及促使排名替代方案出现的局限性。

Core questions

  • 查询如何通过AND、OR和NOT组合术语来表达?
  • 倒排列表上的集合操作如何用于计算匹配文档集?
  • 为什么严格的布尔匹配会产生未排序的结果集,以及这为什么会成为一个问题?
  • 扩展布尔模型如何分配部分匹配分数以实现排名?
  • 在哪些情况下,精确匹配的布尔检索仍然优于排名检索?

Key concepts

  • 布尔运算符(AND, OR, NOT)
  • 精确匹配检索
  • 倒排列表上的集合操作
  • 未排序结果集
  • p范数模型
  • 部分匹配和软布尔运算符
  • 查询表达能力

Key theories

集合论精确匹配
布尔模型将查询解释为关于术语存在的逻辑谓词,并返回满足条件的精确文档集,提供精确、可预测的控制,但没有相关度概念。
扩展布尔(p范数)模型
通过将文档和查询嵌入加权术语空间,并通过可调的p范数计算AND和OR的基于距离的满足度,扩展布尔模型在保留布尔查询逻辑结构的同时恢复了排名。

Clinical relevance

布尔检索在需要精确、可审计选择的领域仍然至关重要:法律和专利检索、系统评价文献筛选以及图书馆和数据库系统的高级搜索过滤器。扩展布尔思想为结合逻辑运算符和评分的结构化查询语言提供了信息。

History

布尔检索是20世纪60年代和70年代早期商业和书目检索系统的主导范式,因为它能够清晰地映射到倒排列表上的高效集合操作。其无法对结果进行排名的缺点促使Salton、Fox和Wu在1983年提出了扩展布尔模型,该模型将布尔查询的逻辑结构与向量空间模型的加权相结合。

Key figures

  • Gerard Salton
  • Edward A. Fox

Related topics

Seminal works

  • manning2008
  • salton1983ext

Frequently asked questions

为什么纯布尔系统不对其结果进行排名?
布尔查询是一个真/假谓词,因此文档要么满足它,要么不满足;没有内置的关于文档匹配程度的概念。在没有权重的情况下,结果集中的所有文档在形式上是等效的,这就是开发扩展模型和排名模型的原因。
布尔检索过时了吗?
没有。在精确性和可解释性至关重要的领域,如法律发现、专利检索和专业文献检索,它仍然被广泛使用,并且大多数现代搜索引擎除了排名检索之外,仍然提供布尔风格的运算符。

Methods for this concept

Related concepts