Что такое перемешивание результатов и почему оно используется?

Перемешивание результатов объединяет результаты двух систем ранжирования в единый список, показываемый каждому пользователю, и приписывает клики той системе, которая предоставила каждый кликнутый результат. Поскольку каждый пользователь фактически сравнивает обе системы одновременно, перемешивание результатов часто более чувствительно, чем A/B-тестирование, для обнаружения улучшений в ранжировании.

Почему клики нельзя принимать за чистую монету как показатель релевантности?

Пользователи склонны кликать по результатам, расположенным выше, независимо от их истинной релевантности (смещение по позиции), и находятся под влиянием того, как представлены результаты. Модели кликов корректируют эти смещения, чтобы клики можно было интерпретировать как более надежное доказательство релевантности.

Пользовательская и онлайн-оценка

Пользовательская и онлайн-оценка измеряют качество поиска посредством реального или симулированного взаимодействия с пользователем, используя исследования, данные о кликах, A/B-тестирование и перемешивание результатов (interleaving) вместо фиксированных оценок релевантности.

Найти тему в PaperMindСкороFind papers & topics

Tools & resources

Скачать слайды

Learn & explore

ВидеоСкоро

Definition

Пользовательская и онлайн-оценка включают методы, которые оценивают поисковые системы посредством взаимодействия с пользователем, начиная от контролируемых лабораторных исследований производительности задач и удовлетворенности до крупномасштабных онлайн-экспериментов, таких как A/B-тестирование и перемешивание результатов, которые сравнивают системы путем наблюдения за поведением реальных пользователей.

Scope

Эта тема охватывает оценку, ориентированную на пользователей и их поведение: интерактивные пользовательские исследования успешности выполнения задач и удовлетворенности, использование неявных сигналов, таких как клики и время просмотра, модели кликов, интерпретирующие поведение, а также контролируемые онлайн-эксперименты, включая A/B-тестирование и перемешивание результатов. В ней рассматривается, как измерять реальную пользу для пользователя, смещения поведенческих сигналов, а также дизайн и анализ онлайн-экспериментов. Она дополняет офлайн-оценку тестовых коллекций, рассматриваемую в смежных темах.

Core questions

Как можно измерить реальную удовлетворенность пользователя и успешность выполнения задачи, а не только релевантность по отношению к оценкам?
Какие неявные сигналы предоставляют пользователи и насколько они надежны?
Как модели кликов учитывают смещение по позиции и представлению?
Как A/B-тестирование и перемешивание результатов сравнивают системы онлайн?
Почему перемешивание результатов часто более чувствительно, чем A/B-тестирование, для сравнения ранжирования?

Key concepts

интерактивное пользовательское исследование
успешность выполнения задачи и удовлетворенность
неявная обратная связь (клики, время просмотра)
модели кликов (позиционная, каскадная)
смещение по позиции и представлению
A/B-тестирование
перемешивание результатов (interleaving)
онлайн-метрики и чувствительность

Key theories

Неявная обратная связь и модели кликов: Клики пользователей и другие взаимодействия предоставляют обильные, но смещенные сигналы релевантности; модели кликов, такие как позиционная и каскадная модели, формализуют то, как пользователи просматривают результаты, чтобы клики можно было интерпретировать как доказательство релевантности.
Контролируемое онлайн-экспериментирование: A/B-тестирование случайным образом назначает пользователей вариантам системы и сравнивает метрики результатов, в то время как перемешивание результатов объединяет два ранжирования в один список и приписывает клики той системе, которая предоставила каждый кликнутый результат, часто обеспечивая более чувствительные внутрипользовательские сравнения качества ранжирования.

Clinical relevance

Онлайн-оценка является основным способом, которым крупные поисковые, рекомендательные и электронно-коммерческие системы принимают решения о внедрении изменений, поскольку она измеряет реальное влияние на пользователя. A/B-тестирование и перемешивание результатов, интерпретируемые с помощью моделей кликов, которые корректируют смещения, способствуют непрерывному улучшению производственного ранжирования в масштабе.

History

Оценка информационного поиска, ориентированная на пользователя, долгое время изучала интерактивное поисковое поведение, но появление веб-поиска сделало крупномасштабную онлайн-оценку практичной. Работа Йоахимса 2002 года установила данные о кликах как сигнал релевантности и представила перемешивание результатов, контролируемые веб-эксперименты развивались в индустрии на протяжении 2000-х годов, а обзор 2016 года консолидировал методы онлайн-оценки.

Key figures

Thorsten Joachims
Filip Radlinski
Katja Hofmann
Ron Kohavi

Seminal works

hofmann2016
joachims2002
kohavi2009

Frequently asked questions

Что такое перемешивание результатов и почему оно используется?: Перемешивание результатов объединяет результаты двух систем ранжирования в единый список, показываемый каждому пользователю, и приписывает клики той системе, которая предоставила каждый кликнутый результат. Поскольку каждый пользователь фактически сравнивает обе системы одновременно, перемешивание результатов часто более чувствительно, чем A/B-тестирование, для обнаружения улучшений в ранжировании.
Почему клики нельзя принимать за чистую монету как показатель релевантности?: Пользователи склонны кликать по результатам, расположенным выше, независимо от их истинной релевантности (смещение по позиции), и находятся под влиянием того, как представлены результаты. Модели кликов корректируют эти смещения, чтобы клики можно было интерпретировать как более надежное доказательство релевантности.