Websuche und Linkanalyse
Websuche und Linkanalyse befassen sich mit dem Retrieval im World Wide Web, wo die Hyperlink-Struktur zusätzliche Hinweise auf Autorität liefert und wo das Ranking viele Merkmale in massivem Umfang kombiniert.
Definition
Websuche und Linkanalyse ist die Untersuchung des Retrievals über hyperverlinkte Web-Sammlungen, die textuelle Relevanz mit graphenbasierten Autoritätssignalen aus der Linkstruktur und mit maschinell gelerntem Ranking über viele Merkmale kombiniert, und zwar im Maßstab und unter den adversarischen Bedingungen des offenen Webs.
Scope
Dieser Bereich umfasst die spezifischen Komponenten des Web-Scale-Retrievals: Crawling und die Linkstruktur des Webs, Linkanalyse-Algorithmen wie PageRank und HITS, die Hyperlinks als Empfehlungen nutzen, Learning-to-Rank-Methoden, die viele Ranking-Merkmale kombinieren, und das Design von Ranking-Pipelines für die Websuche. Es wird behandelt, wie die hyperverlinkte, adversarische und enorme Natur des Webs das Retrieval verändert, im Gegensatz zu den Kern-Retrieval-Modellen, die einzelne Dokumente allein auf der Grundlage textueller Evidenz bewerten.
Sub-topics
Core questions
- Wie wird das Web gecrawlt und sein Linkgraph erfasst?
- Wie kann die Hyperlink-Struktur die Wichtigkeit oder Autorität einer Seite anzeigen?
- Wie unterscheiden sich PageRank und HITS in der Modellierung von linkbasierter Autorität?
- Wie werden viele heterogene Ranking-Signale zu einer einzigen Reihenfolge kombiniert?
- Wie geht das Ranking mit Spam und adversarischer Manipulation im Web-Maßstab um?
Key concepts
- Web-Crawling
- der Web-Linkgraph
- PageRank
- HITS (Hubs und Authorities)
- Ankertext
- Learning to Rank
- Ranking-Merkmale und -Signale
- Web-Spam und adversarisches IR
Key theories
- Hyperlinks als Empfehlungen
- Ein Link von einer Seite zu einer anderen kann als Vertrauensbeweis gelesen werden, sodass der Linkgraph Hinweise auf die Wichtigkeit und Autorität einer Seite enthält, die ein reiner Textabgleich ignoriert.
- PageRank als Zufallswalk-Autoritätsmaß
- PageRank weist jeder Seite einen Wert zu, der ihrer langfristigen Besuchswahrscheinlichkeit unter einem zufälligen Surfer entspricht, der Links folgt und gelegentlich teleportert, was ein anfrageunabhängiges Maß für die Wichtigkeit liefert, das aus dem gesamten Linkgraph abgeleitet wird.
- Maschinell gelerntes Ranking über viele Merkmale
- Das Web-Ranking kombiniert Hunderte von Signalen, einschließlich textueller Relevanz, linkbasierter Autorität und Verhaltensmerkmalen, indem es eine Ranking-Funktion aus gelabelten Daten lernt und so einzelne handoptimierte Formeln ersetzt.
Clinical relevance
Dieser Bereich ist die Grundlage kommerzieller Websuchmaschinen, die Milliarden von Nutzern den Zugang zum öffentlichen Web organisieren. Die Linkanalyse hat die Art und Weise, wie Autorität online gemessen wird, neu gestaltet, und Learning-to-Rank-Pipelines bleiben zentral dafür, wie Such- und Empfehlungssysteme Signale zu Rankings kombinieren.
History
Web-IR entstand Mitte der 1990er Jahre, als das Web die Verzeichnis-basierte Navigation übertraf. Kleinbergs HITS und Brin und Pages PageRank, beide um 1998 und 1999, zeigten, dass die Hyperlink-Struktur Seiten nach Autorität ordnen konnte, und PageRank untermauerte den Aufstieg großer Suchmaschinen. In den 2000er Jahren vereinten Learning-to-Rank-Methoden die wachsende Zahl von Ranking-Signalen.
Key figures
- Sergey Brin
- Larry Page
- Jon Kleinberg
- Prabhakar Raghavan
Related topics
Seminal works
- brin1998
- page1999
- kleinberg1999
Frequently asked questions
- Warum benötigt das Web andere Retrieval-Methoden als eine geschlossene Sammlung?
- Das Web ist enorm, ständig im Wandel, hyperverlinkt und adversarisch, wobei Seiten aktiv versuchen, höher zu ranken. Diese Bedingungen erfordern zusätzlich zum Textabgleich, der in geschlossenen Sammlungen verwendet wird, Crawling, linkbasierte Autoritätssignale, Spam-Resistenz und ein groß angelegtes gelerntes Ranking.
- Ist die Linkanalyse angesichts des modernen Rankings immer noch wichtig?
- Linkbasierte Autorität bleibt eines von Hunderten von Signalen im modernen Ranking, das sich heute stark auf gelernte Modelle sowie Verhaltens- und Inhaltsmerkmale stützt. PageRank-ähnliche Ideen beeinflussen immer noch, wie sich Wichtigkeit durch Graphen ausbreitet, auch bei Empfehlungen und der Zitationsanalyse.