Пользовательская и онлайн-оценка
Пользовательская и онлайн-оценка измеряют качество поиска посредством реального или симулированного взаимодействия с пользователем, используя исследования, данные о кликах, A/B-тестирование и перемешивание результатов (interleaving) вместо фиксированных оценок релевантности.
Definition
Пользовательская и онлайн-оценка включают методы, которые оценивают поисковые системы посредством взаимодействия с пользователем, начиная от контролируемых лабораторных исследований производительности задач и удовлетворенности до крупномасштабных онлайн-экспериментов, таких как A/B-тестирование и перемешивание результатов, которые сравнивают системы путем наблюдения за поведением реальных пользователей.
Scope
Эта тема охватывает оценку, ориентированную на пользователей и их поведение: интерактивные пользовательские исследования успешности выполнения задач и удовлетворенности, использование неявных сигналов, таких как клики и время просмотра, модели кликов, интерпретирующие поведение, а также контролируемые онлайн-эксперименты, включая A/B-тестирование и перемешивание результатов. В ней рассматривается, как измерять реальную пользу для пользователя, смещения поведенческих сигналов, а также дизайн и анализ онлайн-экспериментов. Она дополняет офлайн-оценку тестовых коллекций, рассматриваемую в смежных темах.
Core questions
- Как можно измерить реальную удовлетворенность пользователя и успешность выполнения задачи, а не только релевантность по отношению к оценкам?
- Какие неявные сигналы предоставляют пользователи и насколько они надежны?
- Как модели кликов учитывают смещение по позиции и представлению?
- Как A/B-тестирование и перемешивание результатов сравнивают системы онлайн?
- Почему перемешивание результатов часто более чувствительно, чем A/B-тестирование, для сравнения ранжирования?
Key concepts
- интерактивное пользовательское исследование
- успешность выполнения задачи и удовлетворенность
- неявная обратная связь (клики, время просмотра)
- модели кликов (позиционная, каскадная)
- смещение по позиции и представлению
- A/B-тестирование
- перемешивание результатов (interleaving)
- онлайн-метрики и чувствительность
Key theories
- Неявная обратная связь и модели кликов
- Клики пользователей и другие взаимодействия предоставляют обильные, но смещенные сигналы релевантности; модели кликов, такие как позиционная и каскадная модели, формализуют то, как пользователи просматривают результаты, чтобы клики можно было интерпретировать как доказательство релевантности.
- Контролируемое онлайн-экспериментирование
- A/B-тестирование случайным образом назначает пользователей вариантам системы и сравнивает метрики результатов, в то время как перемешивание результатов объединяет два ранжирования в один список и приписывает клики той системе, которая предоставила каждый кликнутый результат, часто обеспечивая более чувствительные внутрипользовательские сравнения качества ранжирования.
Clinical relevance
Онлайн-оценка является основным способом, которым крупные поисковые, рекомендательные и электронно-коммерческие системы принимают решения о внедрении изменений, поскольку она измеряет реальное влияние на пользователя. A/B-тестирование и перемешивание результатов, интерпретируемые с помощью моделей кликов, которые корректируют смещения, способствуют непрерывному улучшению производственного ранжирования в масштабе.
History
Оценка информационного поиска, ориентированная на пользователя, долгое время изучала интерактивное поисковое поведение, но появление веб-поиска сделало крупномасштабную онлайн-оценку практичной. Работа Йоахимса 2002 года установила данные о кликах как сигнал релевантности и представила перемешивание результатов, контролируемые веб-эксперименты развивались в индустрии на протяжении 2000-х годов, а обзор 2016 года консолидировал методы онлайн-оценки.
Key figures
- Thorsten Joachims
- Filip Radlinski
- Katja Hofmann
- Ron Kohavi
Related topics
Seminal works
- hofmann2016
- joachims2002
- kohavi2009
Frequently asked questions
- Что такое перемешивание результатов и почему оно используется?
- Перемешивание результатов объединяет результаты двух систем ранжирования в единый список, показываемый каждому пользователю, и приписывает клики той системе, которая предоставила каждый кликнутый результат. Поскольку каждый пользователь фактически сравнивает обе системы одновременно, перемешивание результатов часто более чувствительно, чем A/B-тестирование, для обнаружения улучшений в ранжировании.
- Почему клики нельзя принимать за чистую монету как показатель релевантности?
- Пользователи склонны кликать по результатам, расположенным выше, независимо от их истинной релевантности (смещение по позиции), и находятся под влиянием того, как представлены результаты. Модели кликов корректируют эти смещения, чтобы клики можно было интерпретировать как более надежное доказательство релевантности.