ScholarGate
助手

推荐系统评估

推荐系统评估衡量推荐的优劣,涵盖预测准确性、排序质量以及超越准确性的特性,如多样性、新颖性和覆盖率。

用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
下载幻灯片
Learn & explore
视频即将推出

Definition

推荐系统评估是用于评估推荐系统质量的一系列方法和指标,包括在保留数据上计算的离线准确性和排序度量、推荐集超越准确性的特性,以及以用户为中心和在线实验。

Scope

本主题涵盖推荐系统如何进行评估:使用保留交互数据的离线实验、评分预测和Top-N排序的准确性度量,以及超越准确性的标准,包括多样性、新颖性、意外发现和目录覆盖率,以及用户研究和在线实验。它解决了推荐特有的实验设计陷阱,例如数据分割和流行度偏差,并与信息访问中使用的更广泛的在线评估方法相关联。

Core questions

  • 如何衡量评分预测与Top-N排序的推荐质量?
  • 为什么仅凭准确性指标不足以判断一个推荐系统?
  • 多样性、新颖性、意外发现和覆盖率如何量化?
  • 如何分割交互数据以避免信息泄露和流行度偏差?
  • 离线、用户研究和在线评估如何相互补充?

Key concepts

  • 评分预测准确性(MAE, RMSE)
  • Top-N排序指标(精确率、召回率、nDCG)
  • 多样性和新颖性
  • 意外发现
  • 目录覆盖率
  • 离线与在线评估
  • 数据分割和信息泄露
  • 流行度偏差

Key theories

准确性和排序评估
推荐系统通过使用误差度量来评估其预测评分的准确性,或通过使用Top-N度量(如精确率、召回率和归一化折损累计增益)来评估其项目排序的优劣,后者与推荐的消费方式更吻合。
超越准确性的评估
由于准确但冗余或显而易见的推荐可能无法满足用户,评估还考虑多样性、新颖性、意外发现和覆盖率,认识到推荐质量是多维度的。

Clinical relevance

健全的评估决定了哪些推荐更改将被部署,并防止优化错误的目标。多样性和新颖性等超越准确性的考量直接影响用户满意度和参与度,并与推荐中的过滤气泡和公平性等更广泛的问题相关联。

History

Herlocker及其同事2004年的文章建立了一个评估协同过滤推荐系统的严谨框架,阐明了任务和指标。Netflix Prize推广了基于RMSE的准确性评估,此后该领域扩展到排序和超越准确性的度量,并在强调评估与预期用户任务匹配的手册章节中得到巩固。

Key figures

  • Jonathan Herlocker
  • Joseph Konstan
  • Guy Shani
  • Asela Gunawardana

Related topics

Seminal works

  • herlocker2004
  • shani2011
  • ricci2015

Frequently asked questions

为什么仅凭准确性不足以评估推荐系统?
一个推荐系统可能准确但无用,例如推荐用户已知或近似重复的项目。多样性、新颖性、意外发现和覆盖率等特性捕捉了准确性所遗漏的有用性方面,因此良好的评估会考虑多个维度。
为什么推荐系统评估中的数据分割很棘手?
推荐数据是按时间排序的,并且偏向于热门项目,因此简单的随机分割可能会泄露未来信息或仅仅奖励推荐热门项目。需要仔细的基于时间的分割和考虑偏差的指标,才能使离线结果预测真实的性能。

Methods for this concept

Related concepts