ScholarGate
어시스턴트

사용자 및 온라인 평가

사용자 및 온라인 평가는 고정된 관련성 판단 대신 연구, 클릭 데이터, A/B 테스트 및 인터리빙을 사용하여 실제 또는 시뮬레이션된 사용자 상호작용을 통해 검색 품질을 측정합니다.

PaperMind(으)로 주제 찾기곧 제공Find papers & topics
Tools & resources
슬라이드 다운로드
Learn & explore
동영상곧 제공

Definition

사용자 및 온라인 평가는 작업 성능 및 만족도에 대한 통제된 실험실 연구부터 실제 사용자의 행동을 관찰하여 시스템을 비교하는 A/B 테스트 및 인터리빙과 같은 대규모 온라인 실험에 이르기까지 사용자 상호작용을 통해 검색 시스템을 평가하는 방법들을 포함합니다.

Scope

이 주제는 사용자와 그들의 행동에 초점을 맞춘 평가를 다룹니다: 작업 성공 및 만족도에 대한 대화형 사용자 연구, 클릭 및 체류 시간과 같은 암묵적 신호의 사용, 행동을 해석하는 클릭 모델, 그리고 A/B 테스트 및 인터리빙을 포함한 통제된 온라인 실험. 이는 실제 사용자 혜택을 측정하는 방법, 행동 신호의 편향, 그리고 온라인 실험의 설계 및 분석을 다룹니다. 이는 인접 주제에서 다루는 오프라인 테스트 컬렉션 평가를 보완합니다.

Core questions

  • 판단에 대한 관련성뿐만 아니라 실제 사용자 만족도와 작업 성공을 어떻게 측정할 수 있는가?
  • 사용자가 제공하는 암묵적 신호는 무엇이며, 얼마나 신뢰할 수 있는가?
  • 클릭 모델은 위치 및 표현 편향을 어떻게 설명하는가?
  • A/B 테스트와 인터리빙은 온라인에서 시스템을 어떻게 비교하는가?
  • 순위 비교에서 인터리빙이 A/B 테스트보다 종종 더 민감한 이유는 무엇인가?

Key concepts

  • 대화형 사용자 연구
  • 작업 성공 및 만족도
  • 암묵적 피드백 (클릭, 체류 시간)
  • 클릭 모델 (위치, 캐스케이드)
  • 위치 및 표현 편향
  • A/B 테스트
  • 인터리빙
  • 온라인 지표 및 민감도

Key theories

암묵적 피드백 및 클릭 모델
사용자 클릭 및 기타 상호작용은 풍부하지만 편향된 관련성 신호를 제공합니다. 위치 및 캐스케이드 모델과 같은 클릭 모델은 사용자가 결과를 검토하는 방식을 공식화하여 클릭이 관련성의 증거로 해석될 수 있도록 합니다.
통제된 온라인 실험
A/B 테스트는 사용자에게 시스템 변형을 무작위로 할당하고 결과 지표를 비교하는 반면, 인터리빙은 두 가지 순위를 하나의 목록으로 혼합하고 클릭을 귀속시켜 순위 품질에 대한 사용자 내 비교에서 종종 더 민감한 결과를 제공합니다.

Clinical relevance

온라인 평가는 대규모 검색, 추천 및 전자상거래 시스템이 어떤 변경 사항을 적용할지 결정하는 주요 방법입니다. 이는 실제 사용자에게 미치는 영향을 측정하기 때문입니다. 편향을 보정하는 클릭 모델을 통해 해석되는 A/B 테스트 및 인터리빙은 대규모 프로덕션 순위 지정의 지속적인 개선을 이끌어냅니다.

History

사용자 중심 IR(정보 검색) 평가는 오랫동안 대화형 검색 행동을 연구해 왔지만, 웹 검색의 등장은 대규모 온라인 평가를 실용화했습니다. Joachims의 2002년 연구는 클릭스루 데이터를 관련성 신호로 확립하고 인터리빙을 도입했으며, 통제된 웹 실험은 2000년대에 산업계에서 성숙했고, 2016년 설문조사는 온라인 평가 방법을 통합했습니다.

Key figures

  • Thorsten Joachims
  • Filip Radlinski
  • Katja Hofmann
  • Ron Kohavi

Related topics

Seminal works

  • hofmann2016
  • joachims2002
  • kohavi2009

Frequently asked questions

인터리빙이란 무엇이며 왜 사용되는가?
인터리빙은 두 순위 시스템의 결과를 각 사용자에게 표시되는 단일 목록으로 병합하고, 클릭된 각 결과에 기여한 시스템에 클릭을 귀속시킵니다. 각 사용자가 두 시스템을 동시에 효과적으로 비교하기 때문에, 인터리빙은 순위 개선을 감지하는 데 A/B 테스트보다 종종 더 민감합니다.
클릭을 관련성으로 액면 그대로 받아들일 수 없는 이유는 무엇인가?
사용자는 실제 관련성과 관계없이 더 높은 순위의 결과를 클릭하는 경향이 있으며(위치 편향), 결과가 제시되는 방식에 영향을 받습니다. 클릭 모델은 이러한 편향을 보정하여 클릭이 관련성의 더 신뢰할 수 있는 증거로 해석될 수 있도록 합니다.

Methods for this concept

Related concepts