ScholarGate
Assistente

Rastreamento da Web e Estrutura de Links

O rastreamento da web é o processo automatizado de descoberta e download de páginas da web seguindo hiperlinks, e a estrutura de links resultante forma um grafo que os sistemas de busca tanto percorrem quanto analisam.

Encontrar tema com PaperMindEm breveFind papers & topics
Tools & resources
Baixar slides
Learn & explore
VídeoEm breve

Definition

Rastreamento da web é a travessia algorítmica da web que começa a partir de URLs sementes e repetidamente busca páginas e extrai seus links de saída para descobrir mais páginas, enquanto a estrutura de links se refere ao grafo direcionado formado por páginas e os hiperlinks entre elas.

Scope

Este tópico aborda como os rastreadores buscam sistematicamente páginas da web e como a estrutura do grafo de hiperlinks da web é organizada. Ele trata da arquitetura do rastreador, da fronteira de URLs e das restrições de polidez, da detecção de duplicatas e quase-duplicatas, do agendamento de atualização e recrastreamento, e do respeito à exclusão de robôs. Também abrange propriedades empíricas do grafo da web, como sua ampla estrutura de gravata borboleta e distribuição de grau de cauda pesada, que informam tanto o rastreamento quanto a análise de links. Exclui o uso de links para ranqueamento, tratado em PageRank e HITS.

Core questions

  • Como um rastreador descobre, prioriza e agenda as páginas que busca?
  • Como a polidez, a exclusão de robôs e a carga do servidor são respeitadas durante o rastreamento?
  • Como as páginas duplicadas e quase-duplicadas são detectadas e tratadas?
  • Como a atualização do rastreamento é mantida à medida que as páginas mudam?
  • Que estrutura em larga escala o grafo da web exibe?

Key concepts

  • rastreador da web / spider
  • fronteira de URLs e conjunto de sementes
  • polidez de rastreamento e robots.txt
  • detecção de duplicatas e quase-duplicatas
  • atualização e agendamento de recrastreamento
  • o grafo da web
  • estrutura de gravata borboleta
  • distribuições de grau de entrada e saída

Key theories

Arquitetura do rastreador e a fronteira de URLs
Um rastreador mantém uma fronteira de URLs a serem buscadas, aplica políticas de priorização e polidez, analisa páginas buscadas para extrair novos links e rastreia páginas visitadas, equilibrando cobertura, atualização e limites de recursos.
Estrutura macroscópica do grafo da web
Estudos empíricos mostram que o grafo de links da web tem uma forma característica de gravata borboleta com um grande núcleo fortemente conectado, mais componentes de entrada e saída, e grau de entrada de cauda pesada, o que restringe a alcançabilidade e informa a estratégia de rastreamento.

Clinical relevance

O rastreamento é a etapa de aquisição de dados de todo motor de busca da web e de análises da web em larga escala, arquivamento e construção de conjuntos de dados. A compreensão da estrutura de links guia o rastreamento eficiente, ajuda a estimar a cobertura e sustenta as medidas de autoridade baseadas em links usadas no ranqueamento.

History

Os rastreadores da web surgiram com a web inicial em meados da década de 1990 para alimentar índices de busca. Cho e colegas estudaram o rastreamento eficiente e a ordenação de URLs em 1998, e o estudo de 2000 'estrutura de grafo na web' revelou a macroestrutura de gravata borboleta da web. À medida que a web cresceu, o rastreamento amadureceu para uma disciplina de sistemas distribuídos em larga escala, enfatizando a atualização, cobertura e polidez.

Key figures

  • Andrei Broder
  • Prabhakar Raghavan
  • Junghoo Cho
  • Hector García-Molina

Related topics

Seminal works

  • broder2000
  • cho1998
  • manning2008

Frequently asked questions

O que é a fronteira de URLs em um rastreador?
A fronteira de URLs é a fila de URLs descobertas, mas ainda não buscadas. Um rastreador seleciona repetidamente URLs da fronteira de acordo com políticas de prioridade e polidez, busca as páginas, extrai novos links e adiciona URLs não vistas anteriormente de volta à fronteira.
O que significa a estrutura de 'gravata borboleta' da web?
Estudos em larga escala descobriram que o grafo da web tem um grande núcleo fortemente conectado, um componente 'de entrada' de páginas que podem alcançar o núcleo, um componente 'de saída' alcançável a partir dele, além de tentáculos e partes desconectadas, assemelhando-se a uma gravata borboleta. Essa forma afeta quais páginas um rastreador pode alcançar a partir de sementes dadas.

Methods for this concept

Related concepts