推荐系统评估
推荐系统评估衡量推荐的优劣,涵盖预测准确性、排序质量以及超越准确性的特性,如多样性、新颖性和覆盖率。
用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
Learn & explore
视频即将推出
Definition
推荐系统评估是用于评估推荐系统质量的一系列方法和指标,包括在保留数据上计算的离线准确性和排序度量、推荐集超越准确性的特性,以及以用户为中心和在线实验。
Scope
本主题涵盖推荐系统如何进行评估:使用保留交互数据的离线实验、评分预测和Top-N排序的准确性度量,以及超越准确性的标准,包括多样性、新颖性、意外发现和目录覆盖率,以及用户研究和在线实验。它解决了推荐特有的实验设计陷阱,例如数据分割和流行度偏差,并与信息访问中使用的更广泛的在线评估方法相关联。
Core questions
- 如何衡量评分预测与Top-N排序的推荐质量?
- 为什么仅凭准确性指标不足以判断一个推荐系统?
- 多样性、新颖性、意外发现和覆盖率如何量化?
- 如何分割交互数据以避免信息泄露和流行度偏差?
- 离线、用户研究和在线评估如何相互补充?
Key concepts
- 评分预测准确性(MAE, RMSE)
- Top-N排序指标(精确率、召回率、nDCG)
- 多样性和新颖性
- 意外发现
- 目录覆盖率
- 离线与在线评估
- 数据分割和信息泄露
- 流行度偏差
Key theories
- 准确性和排序评估
- 推荐系统通过使用误差度量来评估其预测评分的准确性,或通过使用Top-N度量(如精确率、召回率和归一化折损累计增益)来评估其项目排序的优劣,后者与推荐的消费方式更吻合。
- 超越准确性的评估
- 由于准确但冗余或显而易见的推荐可能无法满足用户,评估还考虑多样性、新颖性、意外发现和覆盖率,认识到推荐质量是多维度的。
Clinical relevance
健全的评估决定了哪些推荐更改将被部署,并防止优化错误的目标。多样性和新颖性等超越准确性的考量直接影响用户满意度和参与度,并与推荐中的过滤气泡和公平性等更广泛的问题相关联。
History
Herlocker及其同事2004年的文章建立了一个评估协同过滤推荐系统的严谨框架,阐明了任务和指标。Netflix Prize推广了基于RMSE的准确性评估,此后该领域扩展到排序和超越准确性的度量,并在强调评估与预期用户任务匹配的手册章节中得到巩固。
Key figures
- Jonathan Herlocker
- Joseph Konstan
- Guy Shani
- Asela Gunawardana
Related topics
Seminal works
- herlocker2004
- shani2011
- ricci2015
Frequently asked questions
- 为什么仅凭准确性不足以评估推荐系统?
- 一个推荐系统可能准确但无用,例如推荐用户已知或近似重复的项目。多样性、新颖性、意外发现和覆盖率等特性捕捉了准确性所遗漏的有用性方面,因此良好的评估会考虑多个维度。
- 为什么推荐系统评估中的数据分割很棘手?
- 推荐数据是按时间排序的,并且偏向于热门项目,因此简单的随机分割可能会泄露未来信息或仅仅奖励推荐热门项目。需要仔细的基于时间的分割和考虑偏差的指标,才能使离线结果预测真实的性能。