什么是交错测试，为什么要使用它？

交错测试将两个排名系统的结果合并成一个向每个用户显示的列表，并将点击归因于贡献了每个被点击结果的系统。由于每个用户实际上同时比较了两个系统，因此交错测试在检测排名改进方面通常比A/B测试更敏感。

为什么不能直接将点击视为相关性？

用户倾向于点击排名靠前的结果，无论其真实相关性如何（位置偏差），并且受结果呈现方式的影响。点击模型纠正了这些偏差，以便将点击解释为更可靠的相关性证据。

用户和在线评估通过真实或模拟的用户交互、研究、点击数据、A/B测试和交错测试来衡量检索质量，而不是依赖固定的相关性判断。

用 PaperMind 寻找选题即将推出Find papers & topics

Tools & resources

Learn & explore

视频即将推出

用户和在线评估包括通过用户交互来评估检索系统的方法，范围从任务绩效和满意度的受控实验室研究，到通过观察真实用户行为来比较系统的大规模在线实验，例如A/B测试和交错测试。

本主题涵盖以用户及其行为为中心的评估：任务成功和满意度的交互式用户研究、点击和停留时间等隐式信号的使用、解释用户行为的点击模型，以及包括A/B测试和交错测试在内的受控在线实验。它探讨了如何衡量真实用户效益、行为信号的偏差以及在线实验的设计和分析。它补充了相邻主题中涵盖的离线测试集评估。

隐式反馈和点击模型: 用户点击和其他交互提供了丰富但有偏差的相关性信号；位置模型和级联模型等点击模型将用户如何检查结果形式化，以便将点击解释为相关性的证据。
受控在线实验: A/B测试随机将用户分配给不同的系统变体并比较结果指标，而交错测试将两个排名混合成一个列表并归因点击，通常能对排名质量进行更敏感的用户内比较。

在线评估是大型搜索、推荐和电子商务系统决定发布哪些更改的主要方式，因为它衡量的是真实用户影响。A/B测试和交错测试，通过纠正偏差的点击模型进行解释，推动了生产排名的大规模持续改进。

以用户为中心的IR评估长期以来一直在研究交互式搜索行为，但网络搜索的兴起使得大规模在线评估成为可能。Joachims在2002年的工作确立了点击数据作为相关性信号，并引入了交错测试；受控网络实验在2000年代通过工业界成熟，2016年的调查巩固了在线评估方法。

什么是交错测试，为什么要使用它？: 交错测试将两个排名系统的结果合并成一个向每个用户显示的列表，并将点击归因于贡献了每个被点击结果的系统。由于每个用户实际上同时比较了两个系统，因此交错测试在检测排名改进方面通常比A/B测试更敏感。
为什么不能直接将点击视为相关性？: 用户倾向于点击排名靠前的结果，无论其真实相关性如何（位置偏差），并且受结果呈现方式的影响。点击模型纠正了这些偏差，以便将点击解释为更可靠的相关性证据。