ScholarGate
Ассистент

Вероятностные модели поиска информации

Вероятностные модели поиска информации ранжируют документы по их предполагаемой вероятности релевантности запросу, основывая взвешивание терминов на теории вероятностей.

Найти тему в PaperMindСкороFind papers & topics
Tools & resources
Скачать слайды
Learn & explore
ВидеоСкоро

Definition

Вероятностная модель поиска информации оценивает для каждого документа вероятность его релевантности заданному запросу и ранжирует документы по этой вероятности, выводя веса терминов из относительной вероятности того, что термины встречаются в релевантных по сравнению с нерелевантными документами.

Scope

Эта тема охватывает модели поиска, построенные на теории вероятностей: принцип вероятностного ранжирования, бинарную модель независимости и ее схему взвешивания релевантности, а также функцию ранжирования BM25 с ее насыщением частоты терминов и нормализацией длины документа. В ней рассматривается, как релевантность моделируется как вероятностное событие, как веса терминов оцениваются на основе информации о релевантности и почему полученные ранжирования теоретически оптимальны при заданных допущениях. Она не включает генеративные языковые модели, которые рассматриваются отдельно.

Core questions

  • Что утверждает принцип вероятностного ранжирования относительно оптимального ранжирования?
  • Как веса терминов выводятся из вероятности появления термина в релевантных по сравнению с нерелевантными документами?
  • Какие допущения независимости делает бинарная модель независимости?
  • Как BM25 учитывает насыщение частоты терминов и длину документа?
  • Как обратная связь по релевантности может уточнить вероятностные оценки?

Key concepts

  • вероятность релевантности
  • принцип вероятностного ранжирования
  • бинарная модель независимости
  • взвешивание релевантности
  • BM25 / Okapi BM25
  • насыщение частоты терминов
  • нормализация длины документа
  • обратная связь по релевантности

Key theories

Принцип вероятностного ранжирования
Ранжирование документов в порядке убывания их вероятности релевантности обеспечивает наилучшую общую эффективность для пользователя при допущениях независимых суждений о релевантности, что является теоретическим обоснованием вероятностного ранжирования.
Бинарная модель независимости
Рассматривая документы как бинарные векторы присутствия терминов и предполагая, что термины встречаются независимо при условии релевантности, модель выводит вес релевантности для каждого термина из отношения шансов его появления в релевантных по сравнению с нерелевантными документами.
Функция ранжирования BM25
Практическая функция оценки вероятностной структуры релевантности добавляет нелинейное насыщение частоты терминов и нормализацию длины документа к взвешиванию релевантности, создавая надежный, настраиваемый ранжировщик, который остается ведущей базовой моделью.

Clinical relevance

BM25 является одной из наиболее широко используемых функций ранжирования в промышленных поисковых системах и поисковых системах с открытым исходным кодом, а также служит стандартной сильной базовой моделью, с которой сравниваются нейронные ранжировщики. Вероятностное взвешивание релевантности также лежит в основе функций обратной связи по релевантности, которые уточняют результаты на основе суждений пользователя.

History

Вероятностный информационный поиск был прочно обоснован теорией взвешивания релевантности Робертсона и Спарк Джонс 1976 года и фундаментальным учебником ван Рейсбергена. В течение 1980-х и 1990-х годов проект Okapi в Лондонском городском университете доработал эти идеи до функции BM25, которая оказалась доминирующей в оценках TREC. Обзор вероятностной структуры релевантности 2009 года консолидировал это семейство моделей.

Key figures

  • Stephen E. Robertson
  • Karen Spärck Jones
  • C. J. van Rijsbergen
  • Hugo Zaragoza

Related topics

Seminal works

  • robertson1976
  • robertson2009
  • vanrijsbergen1979

Frequently asked questions

Что такое принцип вероятностного ранжирования?
Он утверждает, что если система поиска ранжирует документы в порядке убывания их вероятности релевантности запросу, то при условии независимости суждений о релевантности общая эффективность для пользователя максимизируется. Это теоретическая основа вероятностного ранжирования.
Почему BM25 так эффективен, несмотря на простые допущения?
BM25 учитывает два эмпирически важных эффекта, которые упускают более простые веса: уменьшение отдачи от повторных вхождений терминов (насыщение) и необходимость нормализации по длине документа. Эти корректировки в сочетании с весами терминов, подобными idf, делают его удивительно надежным ранжировщиком.

Methods for this concept

Related concepts