网络搜索与链接分析
网络搜索和链接分析旨在解决万维网上的信息检索问题,其中超链接结构提供了额外的权威证据,并且排名结合了大规模的多种特征。
用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
Learn & explore
视频即将推出
Definition
网络搜索和链接分析是对超链接网络集合上的检索进行研究的领域,它将文本相关性与源自链接结构的基于图的权威信号以及在开放网络的规模和对抗性条件下对许多特征进行机器学习排名相结合。
Scope
该领域涵盖了网络规模检索特有的组件:网络爬取和网络链接结构、利用超链接作为认可的链接分析算法(如PageRank和HITS)、结合多种排名特征的学习排名方法,以及网络搜索排名管道的设计。它解决了网络的超链接、对抗性和庞大特性如何改变检索,这与仅基于文本证据对单个文档进行评分的核心检索模型不同。
Sub-topics
Core questions
- 网络是如何被爬取以及其链接图是如何被捕获的?
- 超链接结构如何指示页面的重要性或权威性?
- PageRank和HITS在建模基于链接的权威性方面有何不同?
- 如何将许多异构的排名信号组合成一个单一的排序?
- 排名如何应对网络规模下的垃圾信息和对抗性操纵?
Key concepts
- 网络爬取
- 网络链接图
- PageRank
- HITS(中心和权威)
- 锚文本
- 学习排名
- 排名特征和信号
- 网络垃圾信息和对抗性信息检索
Key theories
- 超链接作为认可
- 从一个页面到另一个页面的链接可以被视为信任票,因此链接图包含了关于页面重要性和权威性的证据,而纯文本匹配则忽略了这些证据。
- PageRank作为随机游走权威度量
- PageRank为每个页面分配一个分数,该分数等于一个随机冲浪者(他会跟随链接并偶尔瞬移)长期访问该页面的概率,从而提供一个独立于查询的、源自整个链接图的重要性度量。
- 基于多特征的机器学习排名
- 网络排名结合了数百个信号,包括文本相关性、基于链接的权威性和行为特征,通过从标记数据中学习排名函数,取代了单一的手动调整公式。
Clinical relevance
该领域是商业网络搜索引擎的基础,这些搜索引擎为数十亿用户组织对公共网络的访问。链接分析重塑了在线衡量权威的方式,而学习排名管道仍然是搜索和推荐系统如何将信号组合成排名的核心。
History
随着网络超越基于目录的导航,网络信息检索(Web IR)在20世纪90年代中期兴起。Kleinberg的HITS和Brin与Page的PageRank(均在1998年和1999年左右)表明,超链接结构可以根据权威性对页面进行排名,PageRank支撑了大型搜索引擎的崛起。在21世纪00年代,学习排名方法统一了越来越多的排名信号。
Key figures
- Sergey Brin
- Larry Page
- Jon Kleinberg
- Prabhakar Raghavan
Related topics
Seminal works
- brin1998
- page1999
- kleinberg1999
Frequently asked questions
- 为什么网络需要与封闭集合不同的检索方法?
- 网络是庞大的、不断变化的、超链接的,并且具有对抗性,页面会积极尝试获得更高的排名。这些条件在封闭集合中使用的文本匹配之上,增加了爬取、基于链接的权威信号、抗垃圾信息能力和大规模学习排名。
- 鉴于现代排名,链接分析仍然重要吗?
- 在现代排名中,基于链接的权威仍然是数百个信号中的一个,现代排名现在严重依赖于学习模型以及行为和内容特征。PageRank式思想仍然指导着重要性如何在图中传播,包括在推荐和引文分析中。