Что такое принцип вероятностного ранжирования?

Он утверждает, что если система поиска ранжирует документы в порядке убывания их вероятности релевантности запросу, то при условии независимости суждений о релевантности общая эффективность для пользователя максимизируется. Это теоретическая основа вероятностного ранжирования.

Почему BM25 так эффективен, несмотря на простые допущения?

BM25 учитывает два эмпирически важных эффекта, которые упускают более простые веса: уменьшение отдачи от повторных вхождений терминов (насыщение) и необходимость нормализации по длине документа. Эти корректировки в сочетании с весами терминов, подобными idf, делают его удивительно надежным ранжировщиком.

Вероятностные модели поиска информации

Вероятностные модели поиска информации ранжируют документы по их предполагаемой вероятности релевантности запросу, основывая взвешивание терминов на теории вероятностей.

Найти тему в PaperMindСкороFind papers & topics

Tools & resources

Скачать слайды

Learn & explore

ВидеоСкоро

Definition

Вероятностная модель поиска информации оценивает для каждого документа вероятность его релевантности заданному запросу и ранжирует документы по этой вероятности, выводя веса терминов из относительной вероятности того, что термины встречаются в релевантных по сравнению с нерелевантными документами.

Scope

Эта тема охватывает модели поиска, построенные на теории вероятностей: принцип вероятностного ранжирования, бинарную модель независимости и ее схему взвешивания релевантности, а также функцию ранжирования BM25 с ее насыщением частоты терминов и нормализацией длины документа. В ней рассматривается, как релевантность моделируется как вероятностное событие, как веса терминов оцениваются на основе информации о релевантности и почему полученные ранжирования теоретически оптимальны при заданных допущениях. Она не включает генеративные языковые модели, которые рассматриваются отдельно.

Core questions

Что утверждает принцип вероятностного ранжирования относительно оптимального ранжирования?
Как веса терминов выводятся из вероятности появления термина в релевантных по сравнению с нерелевантными документами?
Какие допущения независимости делает бинарная модель независимости?
Как BM25 учитывает насыщение частоты терминов и длину документа?
Как обратная связь по релевантности может уточнить вероятностные оценки?

Key concepts

вероятность релевантности
принцип вероятностного ранжирования
бинарная модель независимости
взвешивание релевантности
BM25 / Okapi BM25
насыщение частоты терминов
нормализация длины документа
обратная связь по релевантности

Key theories

Принцип вероятностного ранжирования: Ранжирование документов в порядке убывания их вероятности релевантности обеспечивает наилучшую общую эффективность для пользователя при допущениях независимых суждений о релевантности, что является теоретическим обоснованием вероятностного ранжирования.
Бинарная модель независимости: Рассматривая документы как бинарные векторы присутствия терминов и предполагая, что термины встречаются независимо при условии релевантности, модель выводит вес релевантности для каждого термина из отношения шансов его появления в релевантных по сравнению с нерелевантными документами.
Функция ранжирования BM25: Практическая функция оценки вероятностной структуры релевантности добавляет нелинейное насыщение частоты терминов и нормализацию длины документа к взвешиванию релевантности, создавая надежный, настраиваемый ранжировщик, который остается ведущей базовой моделью.

Clinical relevance

BM25 является одной из наиболее широко используемых функций ранжирования в промышленных поисковых системах и поисковых системах с открытым исходным кодом, а также служит стандартной сильной базовой моделью, с которой сравниваются нейронные ранжировщики. Вероятностное взвешивание релевантности также лежит в основе функций обратной связи по релевантности, которые уточняют результаты на основе суждений пользователя.

History

Вероятностный информационный поиск был прочно обоснован теорией взвешивания релевантности Робертсона и Спарк Джонс 1976 года и фундаментальным учебником ван Рейсбергена. В течение 1980-х и 1990-х годов проект Okapi в Лондонском городском университете доработал эти идеи до функции BM25, которая оказалась доминирующей в оценках TREC. Обзор вероятностной структуры релевантности 2009 года консолидировал это семейство моделей.

Key figures

Stephen E. Robertson
Karen Spärck Jones
C. J. van Rijsbergen
Hugo Zaragoza

Seminal works

robertson1976
robertson2009
vanrijsbergen1979

Frequently asked questions

Что такое принцип вероятностного ранжирования?: Он утверждает, что если система поиска ранжирует документы в порядке убывания их вероятности релевантности запросу, то при условии независимости суждений о релевантности общая эффективность для пользователя максимизируется. Это теоретическая основа вероятностного ранжирования.
Почему BM25 так эффективен, несмотря на простые допущения?: BM25 учитывает два эмпирически важных эффекта, которые упускают более простые веса: уменьшение отдачи от повторных вхождений терминов (насыщение) и необходимость нормализации по длине документа. Эти корректировки в сочетании с весами терминов, подобными idf, делают его удивительно надежным ранжировщиком.