Булев и расширенный булев поиск
Булев поиск сопоставляет документы с запросами, построенными из терминов, объединенных логическими операторами И, ИЛИ и НЕ, возвращая набор документов, которые точно соответствуют запросу.
Definition
Булев поиск представляет каждый документ как набор терминов, а каждый запрос — как булево выражение, возвращая именно те документы, наборы терминов которых делают выражение истинным; расширенный булев поиск ослабляет эту семантику «все или ничего», присваивая частичные степени совпадения, чтобы результаты могли быть ранжированы.
Scope
Эта тема охватывает классическую булеву модель поиска, в которой запрос представляет собой логическое выражение над терминами, и документ либо удовлетворяет ему, либо нет, а также ее расширения, которые смягчают строгую теоретико-множественную семантику для получения ранжирования, в частности, расширенную булеву (p-норм) модель. В ней рассматриваются синтаксис запросов, операции над списками вхождений, сильные стороны поиска с точным совпадением и ограничения, которые мотивировали появление ранжированных альтернатив.
Core questions
- Как запрос выражается как комбинация терминов с использованием И, ИЛИ и НЕ?
- Как операции над списками вхождений используются для вычисления соответствующего набора документов?
- Почему строгое булево сопоставление дает неранжированный набор результатов, и почему это может быть проблемой?
- Как расширенные булевы модели присваивают частичные оценки совпадения для обеспечения ранжирования?
- В каких условиях булев поиск с точным совпадением остается предпочтительнее ранжированного поиска?
Key concepts
- Булевы операторы (И, ИЛИ, НЕ)
- поиск с точным совпадением
- операции над списками вхождений
- неранжированный набор результатов
- модель p-нормы
- частичное совпадение и мягкие булевы операторы
- выразительность запросов
Key theories
- Теоретико-множественное точное сопоставление
- Булева модель интерпретирует запрос как логический предикат наличия терминов и возвращает точный набор удовлетворяющих документов, обеспечивая точный, предсказуемый контроль, но без понятия степени релевантности.
- Расширенная булева (p-норм) модель
- Встраивая документы и запросы во взвешенное пространство терминов и вычисляя степени удовлетворения для И и ИЛИ на основе расстояния с помощью настраиваемой p-нормы, расширенная булева модель восстанавливает ранжирование, сохраняя при этом логическую структуру булевых запросов.
Clinical relevance
Булев поиск остается центральным там, где важен точный, проверяемый отбор: юридический и патентный поиск, скрининг литературы для систематических обзоров и расширенные фильтры поиска библиотечных и баз данных систем. Идеи расширенного булева поиска лежат в основе структурированных языков запросов, которые сочетают логические операторы с оценкой.
History
Булев поиск был доминирующей парадигмой ранних коммерческих и библиографических поисковых систем в 1960-х и 1970-х годах, потому что он четко отображался на эффективные операции над инвертированными списками. Его неспособность ранжировать результаты стимулировала создание расширенной булевой модели Салтона, Фокса и Ву в 1983 году, которая объединила логическую структуру булевых запросов с взвешиванием векторной пространственной модели.
Key figures
- Gerard Salton
- Edward A. Fox
Related topics
Seminal works
- manning2008
- salton1983ext
Frequently asked questions
- Почему чистые булевы системы не ранжируют свои результаты?
- Булев запрос является предикатом истинности/ложности, поэтому документ либо удовлетворяет ему, либо нет; нет встроенного понятия того, насколько сильно документ соответствует. Без весов все документы в наборе результатов формально эквивалентны, поэтому были разработаны расширенные и ранжированные модели.
- Устарел ли булев поиск?
- Нет. Он по-прежнему широко используется там, где точность и объяснимость имеют существенное значение, например, в юридическом поиске, патентном поиске и экспертном поиске литературы, и большинство современных поисковых систем по-прежнему предоставляют операторы в булевом стиле наряду с ранжированным поиском.