ScholarGate
Assistente

Pesquisa Web e Análise de Links

A pesquisa web e a análise de links abordam a recuperação de informações na World Wide Web, onde a estrutura de hiperlinks fornece evidências adicionais de autoridade e onde a classificação combina muitas características em escala massiva.

Encontrar tema com PaperMindEm breveFind papers & topics
Tools & resources
Baixar slides
Learn & explore
VídeoEm breve

Definition

Pesquisa web e análise de links é o estudo da recuperação em coleções web hiperligadas, combinando relevância textual com sinais de autoridade baseados em grafos derivados da estrutura de links e com classificação aprendida por máquina sobre muitas características, na escala e sob as condições adversárias da web aberta.

Scope

Esta área abrange os componentes específicos da recuperação em escala web: o rastreamento e a estrutura de links da web, algoritmos de análise de links como PageRank e HITS que exploram hiperlinks como endossos, métodos de aprendizado para classificar (learning-to-rank) que combinam muitas características de classificação, e o design de pipelines de classificação de pesquisa web. Aborda como a natureza hiperligada, adversária e enorme da web altera a recuperação, distinguindo-se dos modelos de recuperação centrais que pontuam documentos individuais apenas com base em evidências textuais.

Sub-topics

Core questions

  • Como a web é rastreada e seu grafo de links é capturado?
  • Como a estrutura de hiperlinks pode indicar a importância ou autoridade de uma página?
  • Como PageRank e HITS diferem na modelagem da autoridade baseada em links?
  • Como muitos sinais de classificação heterogêneos são combinados em uma única ordenação?
  • Como a classificação lida com spam e manipulação adversária em escala web?

Key concepts

  • rastreamento web
  • o grafo de links da web
  • PageRank
  • HITS (hubs e autoridades)
  • texto âncora
  • aprendizado para classificar
  • características e sinais de classificação
  • spam web e IR adversária

Key theories

Hiperlinks como endossos
Um link de uma página para outra pode ser interpretado como um voto de confiança, de modo que o grafo de links contém evidências sobre a importância e autoridade da página que a correspondência de texto pura ignora.
PageRank como uma medida de autoridade por passeio aleatório
O PageRank atribui a cada página uma pontuação igual à sua probabilidade de visitação de longo prazo sob um surfista aleatório que segue links e ocasionalmente se teletransporta, fornecendo uma medida de importância independente da consulta derivada de todo o grafo de links.
Classificação aprendida por máquina sobre muitas características
A classificação web combina centenas de sinais, incluindo relevância textual, autoridade baseada em links e características comportamentais, aprendendo uma função de classificação a partir de dados rotulados, substituindo fórmulas únicas ajustadas manualmente.

Clinical relevance

Esta área é a base dos motores de busca comerciais da web, que organizam o acesso à web pública para bilhões de usuários. A análise de links remodelou a forma como a autoridade é medida online, e os pipelines de aprendizado para classificar (learning-to-rank) permanecem centrais para como os sistemas de busca e recomendação combinam sinais em classificações.

History

A IR (Information Retrieval) na web surgiu em meados da década de 1990, à medida que a web superava a navegação baseada em diretórios. HITS de Kleinberg e PageRank de Brin e Page, ambos por volta de 1998 e 1999, mostraram que a estrutura de hiperlinks poderia classificar páginas por autoridade, e o PageRank sustentou a ascensão de motores de busca em larga escala. Ao longo dos anos 2000, os métodos de aprendizado para classificar (learning-to-rank) unificaram o número crescente de sinais de classificação.

Key figures

  • Sergey Brin
  • Larry Page
  • Jon Kleinberg
  • Prabhakar Raghavan

Related topics

Seminal works

  • brin1998
  • page1999
  • kleinberg1999

Frequently asked questions

Por que a web precisa de métodos de recuperação diferentes de uma coleção fechada?
A web é enorme, em constante mudança, hiperligada e adversária, com páginas tentando ativamente obter classificações mais altas. Essas condições adicionam rastreamento, sinais de autoridade baseados em links, resistência a spam e classificação aprendida em larga escala, além da correspondência textual usada em coleções fechadas.
A análise de links ainda é importante dada a classificação moderna?
A autoridade baseada em links permanece um sinal entre centenas na classificação moderna, que agora se apoia fortemente em modelos aprendidos e em características comportamentais e de conteúdo. Ideias no estilo PageRank ainda informam como a importância se propaga através de grafos, inclusive em sistemas de recomendação e análise de citações.

Methods for this concept

Related concepts