Вероятностные модели поиска информации
Вероятностные модели поиска информации ранжируют документы по их предполагаемой вероятности релевантности запросу, основывая взвешивание терминов на теории вероятностей.
Definition
Вероятностная модель поиска информации оценивает для каждого документа вероятность его релевантности заданному запросу и ранжирует документы по этой вероятности, выводя веса терминов из относительной вероятности того, что термины встречаются в релевантных по сравнению с нерелевантными документами.
Scope
Эта тема охватывает модели поиска, построенные на теории вероятностей: принцип вероятностного ранжирования, бинарную модель независимости и ее схему взвешивания релевантности, а также функцию ранжирования BM25 с ее насыщением частоты терминов и нормализацией длины документа. В ней рассматривается, как релевантность моделируется как вероятностное событие, как веса терминов оцениваются на основе информации о релевантности и почему полученные ранжирования теоретически оптимальны при заданных допущениях. Она не включает генеративные языковые модели, которые рассматриваются отдельно.
Core questions
- Что утверждает принцип вероятностного ранжирования относительно оптимального ранжирования?
- Как веса терминов выводятся из вероятности появления термина в релевантных по сравнению с нерелевантными документами?
- Какие допущения независимости делает бинарная модель независимости?
- Как BM25 учитывает насыщение частоты терминов и длину документа?
- Как обратная связь по релевантности может уточнить вероятностные оценки?
Key concepts
- вероятность релевантности
- принцип вероятностного ранжирования
- бинарная модель независимости
- взвешивание релевантности
- BM25 / Okapi BM25
- насыщение частоты терминов
- нормализация длины документа
- обратная связь по релевантности
Key theories
- Принцип вероятностного ранжирования
- Ранжирование документов в порядке убывания их вероятности релевантности обеспечивает наилучшую общую эффективность для пользователя при допущениях независимых суждений о релевантности, что является теоретическим обоснованием вероятностного ранжирования.
- Бинарная модель независимости
- Рассматривая документы как бинарные векторы присутствия терминов и предполагая, что термины встречаются независимо при условии релевантности, модель выводит вес релевантности для каждого термина из отношения шансов его появления в релевантных по сравнению с нерелевантными документами.
- Функция ранжирования BM25
- Практическая функция оценки вероятностной структуры релевантности добавляет нелинейное насыщение частоты терминов и нормализацию длины документа к взвешиванию релевантности, создавая надежный, настраиваемый ранжировщик, который остается ведущей базовой моделью.
Clinical relevance
BM25 является одной из наиболее широко используемых функций ранжирования в промышленных поисковых системах и поисковых системах с открытым исходным кодом, а также служит стандартной сильной базовой моделью, с которой сравниваются нейронные ранжировщики. Вероятностное взвешивание релевантности также лежит в основе функций обратной связи по релевантности, которые уточняют результаты на основе суждений пользователя.
History
Вероятностный информационный поиск был прочно обоснован теорией взвешивания релевантности Робертсона и Спарк Джонс 1976 года и фундаментальным учебником ван Рейсбергена. В течение 1980-х и 1990-х годов проект Okapi в Лондонском городском университете доработал эти идеи до функции BM25, которая оказалась доминирующей в оценках TREC. Обзор вероятностной структуры релевантности 2009 года консолидировал это семейство моделей.
Key figures
- Stephen E. Robertson
- Karen Spärck Jones
- C. J. van Rijsbergen
- Hugo Zaragoza
Related topics
Seminal works
- robertson1976
- robertson2009
- vanrijsbergen1979
Frequently asked questions
- Что такое принцип вероятностного ранжирования?
- Он утверждает, что если система поиска ранжирует документы в порядке убывания их вероятности релевантности запросу, то при условии независимости суждений о релевантности общая эффективность для пользователя максимизируется. Это теоретическая основа вероятностного ранжирования.
- Почему BM25 так эффективен, несмотря на простые допущения?
- BM25 учитывает два эмпирически важных эффекта, которые упускают более простые веса: уменьшение отдачи от повторных вхождений терминов (насыщение) и необходимость нормализации по длине документа. Эти корректировки в сочетании с весами терминов, подобными idf, делают его удивительно надежным ранжировщиком.