ScholarGate
Ассистент

Пользовательская и онлайн-оценка

Пользовательская и онлайн-оценка измеряют качество поиска посредством реального или симулированного взаимодействия с пользователем, используя исследования, данные о кликах, A/B-тестирование и перемешивание результатов (interleaving) вместо фиксированных оценок релевантности.

Найти тему в PaperMindСкороFind papers & topics
Tools & resources
Скачать слайды
Learn & explore
ВидеоСкоро

Definition

Пользовательская и онлайн-оценка включают методы, которые оценивают поисковые системы посредством взаимодействия с пользователем, начиная от контролируемых лабораторных исследований производительности задач и удовлетворенности до крупномасштабных онлайн-экспериментов, таких как A/B-тестирование и перемешивание результатов, которые сравнивают системы путем наблюдения за поведением реальных пользователей.

Scope

Эта тема охватывает оценку, ориентированную на пользователей и их поведение: интерактивные пользовательские исследования успешности выполнения задач и удовлетворенности, использование неявных сигналов, таких как клики и время просмотра, модели кликов, интерпретирующие поведение, а также контролируемые онлайн-эксперименты, включая A/B-тестирование и перемешивание результатов. В ней рассматривается, как измерять реальную пользу для пользователя, смещения поведенческих сигналов, а также дизайн и анализ онлайн-экспериментов. Она дополняет офлайн-оценку тестовых коллекций, рассматриваемую в смежных темах.

Core questions

  • Как можно измерить реальную удовлетворенность пользователя и успешность выполнения задачи, а не только релевантность по отношению к оценкам?
  • Какие неявные сигналы предоставляют пользователи и насколько они надежны?
  • Как модели кликов учитывают смещение по позиции и представлению?
  • Как A/B-тестирование и перемешивание результатов сравнивают системы онлайн?
  • Почему перемешивание результатов часто более чувствительно, чем A/B-тестирование, для сравнения ранжирования?

Key concepts

  • интерактивное пользовательское исследование
  • успешность выполнения задачи и удовлетворенность
  • неявная обратная связь (клики, время просмотра)
  • модели кликов (позиционная, каскадная)
  • смещение по позиции и представлению
  • A/B-тестирование
  • перемешивание результатов (interleaving)
  • онлайн-метрики и чувствительность

Key theories

Неявная обратная связь и модели кликов
Клики пользователей и другие взаимодействия предоставляют обильные, но смещенные сигналы релевантности; модели кликов, такие как позиционная и каскадная модели, формализуют то, как пользователи просматривают результаты, чтобы клики можно было интерпретировать как доказательство релевантности.
Контролируемое онлайн-экспериментирование
A/B-тестирование случайным образом назначает пользователей вариантам системы и сравнивает метрики результатов, в то время как перемешивание результатов объединяет два ранжирования в один список и приписывает клики той системе, которая предоставила каждый кликнутый результат, часто обеспечивая более чувствительные внутрипользовательские сравнения качества ранжирования.

Clinical relevance

Онлайн-оценка является основным способом, которым крупные поисковые, рекомендательные и электронно-коммерческие системы принимают решения о внедрении изменений, поскольку она измеряет реальное влияние на пользователя. A/B-тестирование и перемешивание результатов, интерпретируемые с помощью моделей кликов, которые корректируют смещения, способствуют непрерывному улучшению производственного ранжирования в масштабе.

History

Оценка информационного поиска, ориентированная на пользователя, долгое время изучала интерактивное поисковое поведение, но появление веб-поиска сделало крупномасштабную онлайн-оценку практичной. Работа Йоахимса 2002 года установила данные о кликах как сигнал релевантности и представила перемешивание результатов, контролируемые веб-эксперименты развивались в индустрии на протяжении 2000-х годов, а обзор 2016 года консолидировал методы онлайн-оценки.

Key figures

  • Thorsten Joachims
  • Filip Radlinski
  • Katja Hofmann
  • Ron Kohavi

Related topics

Seminal works

  • hofmann2016
  • joachims2002
  • kohavi2009

Frequently asked questions

Что такое перемешивание результатов и почему оно используется?
Перемешивание результатов объединяет результаты двух систем ранжирования в единый список, показываемый каждому пользователю, и приписывает клики той системе, которая предоставила каждый кликнутый результат. Поскольку каждый пользователь фактически сравнивает обе системы одновременно, перемешивание результатов часто более чувствительно, чем A/B-тестирование, для обнаружения улучшений в ранжировании.
Почему клики нельзя принимать за чистую монету как показатель релевантности?
Пользователи склонны кликать по результатам, расположенным выше, независимо от их истинной релевантности (смещение по позиции), и находятся под влиянием того, как представлены результаты. Модели кликов корректируют эти смещения, чтобы клики можно было интерпретировать как более надежное доказательство релевантности.

Methods for this concept

Related concepts