Pesquisa Web e Análise de Links
A pesquisa web e a análise de links abordam a recuperação de informações na World Wide Web, onde a estrutura de hiperlinks fornece evidências adicionais de autoridade e onde a classificação combina muitas características em escala massiva.
Definition
Pesquisa web e análise de links é o estudo da recuperação em coleções web hiperligadas, combinando relevância textual com sinais de autoridade baseados em grafos derivados da estrutura de links e com classificação aprendida por máquina sobre muitas características, na escala e sob as condições adversárias da web aberta.
Scope
Esta área abrange os componentes específicos da recuperação em escala web: o rastreamento e a estrutura de links da web, algoritmos de análise de links como PageRank e HITS que exploram hiperlinks como endossos, métodos de aprendizado para classificar (learning-to-rank) que combinam muitas características de classificação, e o design de pipelines de classificação de pesquisa web. Aborda como a natureza hiperligada, adversária e enorme da web altera a recuperação, distinguindo-se dos modelos de recuperação centrais que pontuam documentos individuais apenas com base em evidências textuais.
Sub-topics
Core questions
- Como a web é rastreada e seu grafo de links é capturado?
- Como a estrutura de hiperlinks pode indicar a importância ou autoridade de uma página?
- Como PageRank e HITS diferem na modelagem da autoridade baseada em links?
- Como muitos sinais de classificação heterogêneos são combinados em uma única ordenação?
- Como a classificação lida com spam e manipulação adversária em escala web?
Key concepts
- rastreamento web
- o grafo de links da web
- PageRank
- HITS (hubs e autoridades)
- texto âncora
- aprendizado para classificar
- características e sinais de classificação
- spam web e IR adversária
Key theories
- Hiperlinks como endossos
- Um link de uma página para outra pode ser interpretado como um voto de confiança, de modo que o grafo de links contém evidências sobre a importância e autoridade da página que a correspondência de texto pura ignora.
- PageRank como uma medida de autoridade por passeio aleatório
- O PageRank atribui a cada página uma pontuação igual à sua probabilidade de visitação de longo prazo sob um surfista aleatório que segue links e ocasionalmente se teletransporta, fornecendo uma medida de importância independente da consulta derivada de todo o grafo de links.
- Classificação aprendida por máquina sobre muitas características
- A classificação web combina centenas de sinais, incluindo relevância textual, autoridade baseada em links e características comportamentais, aprendendo uma função de classificação a partir de dados rotulados, substituindo fórmulas únicas ajustadas manualmente.
Clinical relevance
Esta área é a base dos motores de busca comerciais da web, que organizam o acesso à web pública para bilhões de usuários. A análise de links remodelou a forma como a autoridade é medida online, e os pipelines de aprendizado para classificar (learning-to-rank) permanecem centrais para como os sistemas de busca e recomendação combinam sinais em classificações.
History
A IR (Information Retrieval) na web surgiu em meados da década de 1990, à medida que a web superava a navegação baseada em diretórios. HITS de Kleinberg e PageRank de Brin e Page, ambos por volta de 1998 e 1999, mostraram que a estrutura de hiperlinks poderia classificar páginas por autoridade, e o PageRank sustentou a ascensão de motores de busca em larga escala. Ao longo dos anos 2000, os métodos de aprendizado para classificar (learning-to-rank) unificaram o número crescente de sinais de classificação.
Key figures
- Sergey Brin
- Larry Page
- Jon Kleinberg
- Prabhakar Raghavan
Related topics
Seminal works
- brin1998
- page1999
- kleinberg1999
Frequently asked questions
- Por que a web precisa de métodos de recuperação diferentes de uma coleção fechada?
- A web é enorme, em constante mudança, hiperligada e adversária, com páginas tentando ativamente obter classificações mais altas. Essas condições adicionam rastreamento, sinais de autoridade baseados em links, resistência a spam e classificação aprendida em larga escala, além da correspondência textual usada em coleções fechadas.
- A análise de links ainda é importante dada a classificação moderna?
- A autoridade baseada em links permanece um sinal entre centenas na classificação moderna, que agora se apoia fortemente em modelos aprendidos e em características comportamentais e de conteúdo. Ideias no estilo PageRank ainda informam como a importância se propaga através de grafos, inclusive em sistemas de recomendação e análise de citações.