ScholarGate
Ассистент

Оценка в информационном поиске

Оценка в информационном поиске — это методология измерения того, насколько хорошо поисковая система удовлетворяет информационные потребности, с использованием тестовых коллекций, суждений о релевантности и метрик эффективности.

Найти тему в PaperMindСкороFind papers & topics
Tools & resources
Скачать слайды
Learn & explore
ВидеоСкоро

Definition

Оценка информационного поиска — это набор экспериментальных методов и метрик, используемых для количественной оценки эффективности системы в возврате релевантных результатов для заявленных информационных потребностей, включающий офлайн-эксперименты с тестовыми коллекциями и онлайн-эксперименты на основе пользователей.

Scope

Эта область охватывает методы измерения качества поиска: парадигму Крэнфилдской тестовой коллекции, включающую документы, запросы и суждения о релевантности; метрики эффективности, такие как точность (precision), полнота (recall), средняя точность (mean average precision) и нормализованный дисконтированный кумулятивный выигрыш (normalized discounted cumulative gain); методы пулинга и оценки для сбора суждений в больших масштабах; а также ориентированную на пользователя и онлайн-оценку посредством исследований и контролируемых экспериментов, таких как A/B-тестирование и перемешивание (interleaving). Она рассматривает науку измерения эффективности, отличную от измеряемых моделей и систем.

Sub-topics

Core questions

  • Как объективно количественно оценить качество ранжированного списка?
  • Что представляет собой повторно используемая тестовая коллекция и как оценивается релевантность?
  • Какие метрики отражают воспринимаемое пользователем качество ранжирования?
  • Как можно экономично собрать суждения о релевантности для больших коллекций?
  • Как онлайн-эксперименты измеряют реальную удовлетворенность пользователей?

Key concepts

  • тестовая коллекция
  • суждения о релевантности (qrels)
  • точность и полнота
  • средняя точность (MAP)
  • нормализованный дисконтированный кумулятивный выигрыш (nDCG)
  • пулинг
  • перемешивание (interleaving) и A/B-тестирование
  • статистическая значимость результатов

Key theories

Крэнфилдская парадигма тестовых коллекций
Поисковые системы могут быть воспроизводимо сравнены путем фиксации коллекции документов, набора запросов и человеческих суждений о релевантности, а затем оценки результатов каждой системы по этим суждениям, что позволяет проводить контролируемые, повторяемые эксперименты.
Эффективность как измеримый конструкт
Определение метрик для ранжированного вывода, от основанных на множествах точности и полноты до чувствительных к рангу мер, таких как средняя точность и дисконтированный кумулятивный выигрыш, превращает расплывчатое понятие качества поиска в величины, которые можно усреднять по запросам и статистически сравнивать.
Взаимодополняемость офлайн- и онлайн-оценки
Эксперименты с тестовыми коллекциями обеспечивают воспроизводимость и контроль, но полагаются на оцененную релевантность, тогда как онлайн-эксперименты, такие как A/B-тесты и перемешивание, измеряют реальное поведение пользователей, и вместе они дают более полную картину качества системы.

Clinical relevance

Строгая оценка позволяет области измерять прогресс и справедливо сравнивать системы; общие тестовые коллекции и оценочные кампании, такие как TREC, способствовали десятилетиям достижений. Методы онлайн-оценки, такие как A/B-тестирование и перемешивание, являются основными инструментами для улучшения производственных систем поиска и рекомендаций.

History

Систематическая оценка информационного поиска началась с Крэнфилдских экспериментов Клевердона в 1960-х годах, которые установили парадигму тестовых коллекций. Конференция по поиску текста (TREC), запущенная в 1992 году NIST, масштабировала этот подход для больших коллекций и множества задач, стандартизируя метрики и пулинг. Онлайн-оценка посредством контролируемых экспериментов развивалась вместе с интерактивными системами веб-масштаба.

Key figures

  • Cyril Cleverdon
  • Ellen M. Voorhees
  • Karen Spärck Jones
  • Mark Sanderson

Related topics

Seminal works

  • cleverdon1967
  • voorhees2005
  • sanderson2010

Frequently asked questions

Почему тестовые коллекции так важны для исследований в области информационного поиска?
Тестовая коллекция документов, запросов и суждений о релевантности позволяет оценивать различные системы по одной и той же задаче, делая сравнения воспроизводимыми и справедливыми. Повторно используемые коллекции также позволяют оценивать новые системы без сбора свежих суждений каждый раз.
Зачем использовать онлайн-оценку, если существуют тестовые коллекции?
Тестовые коллекции измеряют эффективность по фиксированным суждениям, но не могут полностью отразить реальную удовлетворенность пользователей, контекст или поведение. Онлайн-эксперименты, такие как A/B-тесты и перемешивание, наблюдают, как реагируют реальные пользователи, дополняя офлайн-метрики поведенческими данными.

Methods for this concept

Related concepts