Por que os motores de busca classificam em múltiplos estágios?

Aplicar os modelos de classificação mais precisos a cada página no índice seria muito lento. Uma primeira etapa barata recupera algumas centenas ou milhares de candidatos promissores, e modelos sucessivamente mais ricos reclassificam esse conjunto menor, equilibrando qualidade com latência e custo.

O que é recuperação de informação adversária?

É o estudo da recuperação em cenários onde o conteúdo tenta ativamente manipular a classificação para obter ganhos, como spam na web, fazendas de links e cloaking. Os sistemas de classificação respondem com detecção de spam, propagação de confiança e medidas de robustez para manter os resultados confiáveis.

Classificação de Pesquisa na Web

A classificação de pesquisa na web é o processo completo de ordenação de páginas da web para uma consulta, combinando sinais textuais, baseados em links e comportamentais através de um pipeline multiestágio que também deve resistir à manipulação.

Encontrar tema com PaperMindEm breveFind papers & topics

Tools & resources

Baixar slides

Learn & explore

VídeoEm breve

Definition

A classificação de pesquisa na web é a combinação de muitos sinais de relevância e qualidade em uma ordenação de páginas da web para uma consulta, tipicamente realizada como um pipeline multiestágio que recupera um conjunto de candidatos com um modelo eficiente e então o reclassifica com modelos aprendidos mais caros, sob pressão adversária contínua de conteúdo que tenta obter classificações mais altas.

Scope

Este tópico aborda como um motor de busca na web produz seus resultados finais classificados: os sinais em que se baseia (relevância textual, texto âncora, autoridade baseada em links, frescor e dados comportamentais), a arquitetura multiestágio que recupera candidatos de forma eficiente e os reclassifica com modelos mais ricos, e a dimensão adversária do spam na web e da manipulação de motores de busca. Ele integra modelos de recuperação, análise de links e aprendizado para classificar em um pipeline de classificação funcional, em vez de tratar qualquer componente isoladamente.

Core questions

Quais sinais contribuem para a classificação de uma página e como são combinados?
Por que a classificação é organizada como um pipeline multiestágio de recuperação e reclassificação?
Como o texto âncora e a autoridade baseada em links complementam o texto na página?
Como os motores de busca detectam e despromovem spam e manipulação na web?
Como os sinais de frescor e comportamento do usuário são incorporados?

Key concepts

sinais e características de classificação
texto âncora
autoridade baseada em links
recuperação e reclassificação multiestágio
sinais de frescor
sinais comportamentais / de clique
spam na web (fazendas de links, cloaking, preenchimento de palavras-chave)
recuperação de informação adversária

Key theories

Pipeline multiestágio de recuperação e reclassificação: Como modelos de classificação ricos são muito caros para serem aplicados a cada documento, a pesquisa na web primeiro recupera um conjunto gerenciável de candidatos com um modelo eficiente, como BM25, e então reclassifica esses candidatos com modelos aprendidos progressivamente mais caros.
Recuperação de informação adversária e spam na web: Como uma classificação mais alta tem valor comercial, o conteúdo é ativamente projetado para manipular a classificação através de preenchimento de palavras-chave, fazendas de links e cloaking, então a classificação deve incluir detecção de spam e robustez como preocupações de primeira ordem.

Clinical relevance

A qualidade da classificação determina a utilidade da pesquisa comercial na web para bilhões de usuários e a visibilidade do conteúdo para os editores, o que dá origem à indústria de otimização de motores de busca. O padrão de recuperar-e-reclassificar e as técnicas de resistência a spam desenvolvidas aqui são reutilizados em e-commerce, aplicativos e pesquisa empresarial.

History

A classificação inicial da pesquisa na web combinava relevância textual com os novos sinais baseados em links introduzidos por volta de 1998. À medida que a manipulação crescia, a recuperação de informação adversária emergiu em meados dos anos 2000 com trabalhos como taxonomias de web-spam e propagação de confiança. Os pipelines de classificação adicionaram constantemente modelos aprendidos e sinais comportamentais, evoluindo para as arquiteturas multiestágio usadas atualmente.

Key figures

Sergey Brin
Larry Page
Zoltán Gyöngyi
Hector García-Molina

Seminal works

brin1998
gyongyi2005
croft2010

Frequently asked questions

Por que os motores de busca classificam em múltiplos estágios?: Aplicar os modelos de classificação mais precisos a cada página no índice seria muito lento. Uma primeira etapa barata recupera algumas centenas ou milhares de candidatos promissores, e modelos sucessivamente mais ricos reclassificam esse conjunto menor, equilibrando qualidade com latência e custo.
O que é recuperação de informação adversária?: É o estudo da recuperação em cenários onde o conteúdo tenta ativamente manipular a classificação para obter ganhos, como spam na web, fazendas de links e cloaking. Os sistemas de classificação respondem com detecção de spam, propagação de confiança e medidas de robustez para manter os resultados confiáveis.