用户和在线评估
用户和在线评估通过真实或模拟的用户交互、研究、点击数据、A/B测试和交错测试来衡量检索质量,而不是依赖固定的相关性判断。
用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
Learn & explore
视频即将推出
Definition
用户和在线评估包括通过用户交互来评估检索系统的方法,范围从任务绩效和满意度的受控实验室研究,到通过观察真实用户行为来比较系统的大规模在线实验,例如A/B测试和交错测试。
Scope
本主题涵盖以用户及其行为为中心的评估:任务成功和满意度的交互式用户研究、点击和停留时间等隐式信号的使用、解释用户行为的点击模型,以及包括A/B测试和交错测试在内的受控在线实验。它探讨了如何衡量真实用户效益、行为信号的偏差以及在线实验的设计和分析。它补充了相邻主题中涵盖的离线测试集评估。
Core questions
- 如何衡量真实用户的满意度和任务成功,而不仅仅是根据判断来衡量相关性?
- 用户提供了哪些隐式信号,它们的可靠性如何?
- 点击模型如何解释位置和呈现偏差?
- A/B测试和交错测试如何在线比较系统?
- 为什么交错测试在排名比较中通常比A/B测试更敏感?
Key concepts
- 交互式用户研究
- 任务成功和满意度
- 隐式反馈(点击、停留时间)
- 点击模型(位置、级联)
- 位置和呈现偏差
- A/B测试
- 交错测试
- 在线指标和敏感性
Key theories
- 隐式反馈和点击模型
- 用户点击和其他交互提供了丰富但有偏差的相关性信号;位置模型和级联模型等点击模型将用户如何检查结果形式化,以便将点击解释为相关性的证据。
- 受控在线实验
- A/B测试随机将用户分配给不同的系统变体并比较结果指标,而交错测试将两个排名混合成一个列表并归因点击,通常能对排名质量进行更敏感的用户内比较。
Clinical relevance
在线评估是大型搜索、推荐和电子商务系统决定发布哪些更改的主要方式,因为它衡量的是真实用户影响。A/B测试和交错测试,通过纠正偏差的点击模型进行解释,推动了生产排名的大规模持续改进。
History
以用户为中心的IR评估长期以来一直在研究交互式搜索行为,但网络搜索的兴起使得大规模在线评估成为可能。Joachims在2002年的工作确立了点击数据作为相关性信号,并引入了交错测试;受控网络实验在2000年代通过工业界成熟,2016年的调查巩固了在线评估方法。
Key figures
- Thorsten Joachims
- Filip Radlinski
- Katja Hofmann
- Ron Kohavi
Related topics
Seminal works
- hofmann2016
- joachims2002
- kohavi2009
Frequently asked questions
- 什么是交错测试,为什么要使用它?
- 交错测试将两个排名系统的结果合并成一个向每个用户显示的列表,并将点击归因于贡献了每个被点击结果的系统。由于每个用户实际上同时比较了两个系统,因此交错测试在检测排名改进方面通常比A/B测试更敏感。
- 为什么不能直接将点击视为相关性?
- 用户倾向于点击排名靠前的结果,无论其真实相关性如何(位置偏差),并且受结果呈现方式的影响。点击模型纠正了这些偏差,以便将点击解释为更可靠的相关性证据。