排序学习
排序学习应用机器学习来构建排序函数,该函数结合了多种特征,通过标记的相关性数据或用户反馈进行训练,以比单一手动调整的公式更好地对文档进行排序。
用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
Learn & explore
视频即将推出
Definition
排序学习是利用机器学习方法,通过已知文档相对或绝对相关性的示例进行训练,以推断出一种函数,该函数能根据查询的相关性对一组文档进行排序,其形式可以是逐点回归或分类、成对偏好学习或直接列表式优化。
Scope
本主题涵盖了用于检索的排序函数学习的监督式和反馈驱动方法。它涉及逐点、成对和列表式公式,相关性标签和点击数据的使用,代表性方法如RankNet和梯度提升排序树,以及基于排序的度量优化。它将排序器作为模型进行学习和评估,而特征的组合和更广泛的服务管道则在网络搜索排序中介绍。
Core questions
- 排序问题如何被视为逐点、成对或列表式学习?
- 哪些训练信号,例如相关性标签或点击数据,驱动着学习?
- 如何优化不可微分的基于排序的评估指标?
- 如何将许多异构特征组合成一个单一的已学习排序器?
- 点击数据如何引入偏差,以及如何解决?
Key concepts
- 排序函数
- 逐点/成对/列表式学习
- 相关性标签和分级相关性
- 点击率和隐式反馈
- RankNet和梯度提升树
- 基于排序的损失和度量优化
- 特征组合
- 位置偏差
Key theories
- 逐点、成对和列表式公式
- 排序可以通过独立预测每个文档的相关性(逐点)、学习文档对的正确排序(成对)或优化整个结果列表的损失(列表式)来学习,其中列表式方法与基于排序的度量最直接对齐。
- 从点击数据中学习
- 用户点击提供了丰富但有偏见的隐式相关性反馈;将点击视为结果列表中的相对偏好,使得排序函数可以从交互日志而非仅昂贵的手动标签中进行训练。
Clinical relevance
排序学习是现代搜索和推荐系统结合信号的标准方式,基于梯度提升树和神经网络模型的机器学习排序器驱动着主要网络搜索引擎、电子商务搜索和广告排序的结果排序。
History
随着网络搜索积累了许多排序信号,手动调整变得不切实际,这促使了机器学习排序的发展。Joachims在2002年的工作表明点击数据可以训练排序器;Burges及其同事的RankNet(2005)引入了神经成对排序及其后代LambdaRank和LambdaMART;Liu在2009年的综述将该领域整合为逐点、成对和列表式范式。
Key figures
- Tie-Yan Liu
- Christopher Burges
- Thorsten Joachims
Related topics
Seminal works
- liu2009
- burges2005
- joachims2002
Frequently asked questions
- 逐点、成对和列表式排序学习之间有什么区别?
- 逐点方法独立预测每个文档的相关性得分;成对方法学习两个文档中哪个应该排名更高;列表式方法优化在整个排序列表上定义的损失。列表式方法与用户实际关心的列表级指标最为吻合。
- 为什么在点击数据有偏差的情况下仍然使用它?
- 点击数据比手动相关性判断便宜得多且数量更丰富,因此它们能够实现大规模训练。问题在于位置和展示偏差,这就是为什么方法将点击视为相对偏好,并越来越多地应用无偏或反事实学习校正。