Pourquoi le Web nécessite-t-il des méthodes de récupération différentes de celles d'une collection fermée ?

Le Web est gigantesque, en constante évolution, hyperlié et antagoniste, avec des pages qui tentent activement de se classer plus haut. Ces conditions ajoutent l'exploration (crawling), les signaux d'autorité basés sur les liens, la résistance au spam et le classement appris à grande échelle, en plus de la correspondance textuelle utilisée dans les collections fermées.

L'analyse de liens est-elle toujours importante compte tenu du classement moderne ?

L'autorité basée sur les liens demeure un signal parmi des centaines dans le classement moderne, qui s'appuie désormais fortement sur des modèles appris et des caractéristiques comportementales et de contenu. Les idées de type PageRank continuent d'éclairer la manière dont l'importance se propage à travers les graphes, y compris dans l'analyse de recommandation et de citation.

Recherche Web et analyse de liens

La recherche Web et l'analyse de liens traitent de la récupération d'informations sur le World Wide Web, où la structure hypertexte fournit des preuves supplémentaires d'autorité et où le classement combine de nombreuses caractéristiques à une échelle massive.

Trouver un sujet avec PaperMindBientôtFind papers & topics

Tools & resources

Télécharger les diapositives

Learn & explore

VidéoBientôt

Definition

La recherche Web et l'analyse de liens constituent l'étude de la récupération d'informations sur des collections Web hyperliées, combinant la pertinence textuelle avec des signaux d'autorité basés sur des graphes dérivés de la structure de liens et avec un classement appris par machine sur de nombreuses caractéristiques, à l'échelle et dans les conditions adverses du Web ouvert.

Scope

Ce domaine couvre les composantes spécifiques à la récupération d'informations à l'échelle du Web : l'exploration (crawling) et la structure de liens du Web, les algorithmes d'analyse de liens tels que PageRank et HITS qui exploitent les hyperliens comme des validations (endorsements), les méthodes d'apprentissage pour le classement (learning-to-rank) qui combinent de nombreuses caractéristiques de classement, et la conception des pipelines de classement pour la recherche Web. Il aborde la manière dont la nature hyperliée, antagoniste et gigantesque du Web modifie la récupération d'informations, se distinguant des modèles de récupération fondamentaux qui évaluent les documents individuels uniquement sur la base de preuves textuelles.

Sub-topics

Core questions

Comment le Web est-il exploré (crawled) et son graphe de liens capturé ?
Comment la structure hypertexte peut-elle indiquer l'importance ou l'autorité d'une page ?
En quoi PageRank et HITS diffèrent-ils dans la modélisation de l'autorité basée sur les liens ?
Comment de nombreux signaux de classement hétérogènes sont-ils combinés en un seul ordre ?
Comment le classement gère-t-il le spam et la manipulation adverse à l'échelle du Web ?

Key concepts

exploration Web (web crawling)
le graphe de liens du Web
PageRank
HITS (hubs et autorités)
texte d'ancrage
apprentissage pour le classement (learning to rank)
caractéristiques et signaux de classement
spam Web et RI adverse

Key theories

Les hyperliens comme validations: Un lien d'une page à une autre peut être interprété comme un vote de confiance ; ainsi, le graphe de liens contient des preuves sur l'importance et l'autorité d'une page que la correspondance textuelle pure ignore.
PageRank comme mesure d'autorité basée sur une marche aléatoire: PageRank attribue à chaque page un score égal à sa probabilité de visite à long terme par un surfeur aléatoire qui suit les liens et se téléporte occasionnellement, offrant une mesure d'importance indépendante de la requête, dérivée de l'ensemble du graphe de liens.
Classement appris par machine sur de nombreuses caractéristiques: Le classement Web combine des centaines de signaux, y compris la pertinence textuelle, l'autorité basée sur les liens et les caractéristiques comportementales, en apprenant une fonction de classement à partir de données étiquetées, remplaçant ainsi les formules uniques ajustées manuellement.

Clinical relevance

Ce domaine est le fondement des moteurs de recherche Web commerciaux, qui organisent l'accès au Web public pour des milliards d'utilisateurs. L'analyse de liens a remodelé la manière dont l'autorité est mesurée en ligne, et les pipelines d'apprentissage pour le classement (learning-to-rank) restent essentiels à la façon dont les systèmes de recherche et de recommandation combinent les signaux en classements.

History

La RI Web (Recherche d'Information sur le Web) a émergé au milieu des années 1990, lorsque le Web a dépassé la navigation basée sur des répertoires. Les algorithmes HITS de Kleinberg et PageRank de Brin et Page, tous deux apparus vers 1998 et 1999, ont montré que la structure hypertexte pouvait classer les pages par autorité, et PageRank a soutenu l'essor des moteurs de recherche à grande échelle. Tout au long des années 2000, les méthodes d'apprentissage pour le classement (learning-to-rank) ont unifié le nombre croissant de signaux de classement.

Key figures

Sergey Brin
Larry Page
Jon Kleinberg
Prabhakar Raghavan

Seminal works

brin1998
page1999
kleinberg1999

Frequently asked questions

Pourquoi le Web nécessite-t-il des méthodes de récupération différentes de celles d'une collection fermée ?: Le Web est gigantesque, en constante évolution, hyperlié et antagoniste, avec des pages qui tentent activement de se classer plus haut. Ces conditions ajoutent l'exploration (crawling), les signaux d'autorité basés sur les liens, la résistance au spam et le classement appris à grande échelle, en plus de la correspondance textuelle utilisée dans les collections fermées.
L'analyse de liens est-elle toujours importante compte tenu du classement moderne ?: L'autorité basée sur les liens demeure un signal parmi des centaines dans le classement moderne, qui s'appuie désormais fortement sur des modèles appris et des caractéristiques comportementales et de contenu. Les idées de type PageRank continuent d'éclairer la manière dont l'importance se propage à travers les graphes, y compris dans l'analyse de recommandation et de citation.