网络搜索排名
网络搜索排名是一个端到端的过程,它通过结合文本、基于链接和行为信号,通过多阶段管道对查询的网页进行排序,并且必须能够抵御操纵。
用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
Learn & explore
视频即将推出
Definition
网络搜索排名是将许多相关性和质量信号组合起来,对查询的网页进行排序的过程,通常通过多阶段管道实现,该管道使用高效模型检索候选集,然后使用更昂贵的学习模型对其进行重新排名,同时面临内容试图获得更高排名的持续对抗性压力。
Scope
本主题涵盖了网络搜索引擎如何生成最终的排名结果:它所依赖的信号(文本相关性、锚文本、基于链接的权威性、时效性和行为数据)、以低成本检索候选并使用更丰富的模型重新排名的多阶段架构,以及网络垃圾邮件和搜索引擎操纵的对抗性维度。它将检索模型、链接分析和学习排名整合到一个工作排名管道中,而不是孤立地处理任何单个组件。
Core questions
- 哪些信号有助于页面排名,以及它们是如何组合的?
- 为什么排名被组织成多阶段的检索-然后-重新排名管道?
- 锚文本和基于链接的权威性如何补充页面文本?
- 搜索引擎如何检测和降低网络垃圾邮件和操纵的排名?
- 时效性和用户行为信号是如何被纳入的?
Key concepts
- 排名信号和特征
- 锚文本
- 基于链接的权威性
- 多阶段检索和重新排名
- 时效性信号
- 行为/点击信号
- 网络垃圾邮件(链接农场、隐藏技术、关键词堆砌)
- 对抗性信息检索
Key theories
- 多阶段检索-然后-重新排名管道
- 由于丰富的排名模型应用于每个文档的成本过高,网络搜索首先使用BM25等高效模型检索一个可管理的候选集,然后使用逐渐更昂贵的学习模型对这些候选进行重新排名。
- 对抗性信息检索和网络垃圾邮件
- 由于更高的排名具有商业价值,内容被积极地设计以通过关键词堆砌、链接农场和隐藏技术来操纵排名,因此排名必须将垃圾邮件检测和鲁棒性作为首要考虑因素。
Clinical relevance
排名质量决定了商业网络搜索对数十亿用户的有用性以及内容对发布者的可见性,这催生了搜索引擎优化行业。此处开发的检索-然后-重新排名模式和抗垃圾邮件技术在电子商务、应用程序和企业搜索中得到了重用。
History
早期的网络搜索排名将文本相关性与大约1998年引入的新的基于链接的信号相结合。随着操纵的增加,对抗性信息检索在2000年代中期出现,例如网络垃圾邮件分类和信任传播等工作。排名管道稳步增加了学习模型和行为信号,演变为当今使用的多阶段架构。
Key figures
- Sergey Brin
- Larry Page
- Zoltán Gyöngyi
- Hector García-Molina
Related topics
Seminal works
- brin1998
- gyongyi2005
- croft2010
Frequently asked questions
- 为什么搜索引擎分多个阶段进行排名?
- 将最准确的排名模型应用于索引中的每个页面会非常慢。廉价的第一阶段检索数百或数千个有希望的候选,然后更丰富的模型依次对这个较小的集合进行重新排名,从而平衡质量与延迟和成本。
- 什么是对抗性信息检索?
- 它是研究在内容积极尝试通过操纵排名以获取利益(例如网络垃圾邮件、链接农场和隐藏技术)的环境中的检索。排名系统通过垃圾邮件检测、信任传播和鲁棒性措施来响应,以保持结果的可靠性。