Оценка в информационном поиске
Оценка в информационном поиске — это методология измерения того, насколько хорошо поисковая система удовлетворяет информационные потребности, с использованием тестовых коллекций, суждений о релевантности и метрик эффективности.
Definition
Оценка информационного поиска — это набор экспериментальных методов и метрик, используемых для количественной оценки эффективности системы в возврате релевантных результатов для заявленных информационных потребностей, включающий офлайн-эксперименты с тестовыми коллекциями и онлайн-эксперименты на основе пользователей.
Scope
Эта область охватывает методы измерения качества поиска: парадигму Крэнфилдской тестовой коллекции, включающую документы, запросы и суждения о релевантности; метрики эффективности, такие как точность (precision), полнота (recall), средняя точность (mean average precision) и нормализованный дисконтированный кумулятивный выигрыш (normalized discounted cumulative gain); методы пулинга и оценки для сбора суждений в больших масштабах; а также ориентированную на пользователя и онлайн-оценку посредством исследований и контролируемых экспериментов, таких как A/B-тестирование и перемешивание (interleaving). Она рассматривает науку измерения эффективности, отличную от измеряемых моделей и систем.
Sub-topics
Core questions
- Как объективно количественно оценить качество ранжированного списка?
- Что представляет собой повторно используемая тестовая коллекция и как оценивается релевантность?
- Какие метрики отражают воспринимаемое пользователем качество ранжирования?
- Как можно экономично собрать суждения о релевантности для больших коллекций?
- Как онлайн-эксперименты измеряют реальную удовлетворенность пользователей?
Key concepts
- тестовая коллекция
- суждения о релевантности (qrels)
- точность и полнота
- средняя точность (MAP)
- нормализованный дисконтированный кумулятивный выигрыш (nDCG)
- пулинг
- перемешивание (interleaving) и A/B-тестирование
- статистическая значимость результатов
Key theories
- Крэнфилдская парадигма тестовых коллекций
- Поисковые системы могут быть воспроизводимо сравнены путем фиксации коллекции документов, набора запросов и человеческих суждений о релевантности, а затем оценки результатов каждой системы по этим суждениям, что позволяет проводить контролируемые, повторяемые эксперименты.
- Эффективность как измеримый конструкт
- Определение метрик для ранжированного вывода, от основанных на множествах точности и полноты до чувствительных к рангу мер, таких как средняя точность и дисконтированный кумулятивный выигрыш, превращает расплывчатое понятие качества поиска в величины, которые можно усреднять по запросам и статистически сравнивать.
- Взаимодополняемость офлайн- и онлайн-оценки
- Эксперименты с тестовыми коллекциями обеспечивают воспроизводимость и контроль, но полагаются на оцененную релевантность, тогда как онлайн-эксперименты, такие как A/B-тесты и перемешивание, измеряют реальное поведение пользователей, и вместе они дают более полную картину качества системы.
Clinical relevance
Строгая оценка позволяет области измерять прогресс и справедливо сравнивать системы; общие тестовые коллекции и оценочные кампании, такие как TREC, способствовали десятилетиям достижений. Методы онлайн-оценки, такие как A/B-тестирование и перемешивание, являются основными инструментами для улучшения производственных систем поиска и рекомендаций.
History
Систематическая оценка информационного поиска началась с Крэнфилдских экспериментов Клевердона в 1960-х годах, которые установили парадигму тестовых коллекций. Конференция по поиску текста (TREC), запущенная в 1992 году NIST, масштабировала этот подход для больших коллекций и множества задач, стандартизируя метрики и пулинг. Онлайн-оценка посредством контролируемых экспериментов развивалась вместе с интерактивными системами веб-масштаба.
Key figures
- Cyril Cleverdon
- Ellen M. Voorhees
- Karen Spärck Jones
- Mark Sanderson
Related topics
Seminal works
- cleverdon1967
- voorhees2005
- sanderson2010
Frequently asked questions
- Почему тестовые коллекции так важны для исследований в области информационного поиска?
- Тестовая коллекция документов, запросов и суждений о релевантности позволяет оценивать различные системы по одной и той же задаче, делая сравнения воспроизводимыми и справедливыми. Повторно используемые коллекции также позволяют оценивать новые системы без сбора свежих суждений каждый раз.
- Зачем использовать онлайн-оценку, если существуют тестовые коллекции?
- Тестовые коллекции измеряют эффективность по фиксированным суждениям, но не могут полностью отразить реальную удовлетворенность пользователей, контекст или поведение. Онлайн-эксперименты, такие как A/B-тесты и перемешивание, наблюдают, как реагируют реальные пользователи, дополняя офлайн-метрики поведенческими данными.