ScholarGate
Asistente

Búsqueda web y análisis de enlaces

La búsqueda web y el análisis de enlaces abordan la recuperación de información en la World Wide Web, donde la estructura de hipervínculos proporciona evidencia adicional de autoridad y donde la clasificación combina muchas características a gran escala.

Encontrar tema con PaperMindPróximamenteFind papers & topics
Tools & resources
Descargar diapositivas
Learn & explore
VídeoPróximamente

Definition

La búsqueda web y el análisis de enlaces es el estudio de la recuperación en colecciones web hipervinculadas, combinando la relevancia textual con señales de autoridad basadas en grafos derivadas de la estructura de enlaces y con clasificación aprendida por máquina sobre muchas características, a la escala y bajo las condiciones adversarias de la web abierta.

Scope

Esta área cubre los componentes específicos de la recuperación a escala web: el rastreo y la estructura de enlaces de la web, algoritmos de análisis de enlaces como PageRank y HITS que explotan los hipervínculos como respaldos, métodos de aprendizaje para clasificar que combinan muchas características de clasificación, y el diseño de tuberías de clasificación de búsqueda web. Aborda cómo la naturaleza hipervinculada, adversaria y enorme de la web cambia la recuperación, a diferencia de los modelos de recuperación centrales que puntúan documentos individuales basándose únicamente en evidencia textual.

Sub-topics

Core questions

  • ¿Cómo se rastrea la web y se captura su grafo de enlaces?
  • ¿Cómo puede la estructura de hipervínculos indicar la importancia o autoridad de una página?
  • ¿Cómo difieren PageRank y HITS en el modelado de la autoridad basada en enlaces?
  • ¿Cómo se combinan muchas señales de clasificación heterogéneas en un solo orden?
  • ¿Cómo se enfrenta la clasificación al spam y la manipulación adversaria a escala web?

Key concepts

  • rastreo web
  • el grafo de enlaces web
  • PageRank
  • HITS (hubs y autoridades)
  • texto ancla
  • aprendizaje para clasificar
  • características y señales de clasificación
  • spam web e IR adversaria

Key theories

Los hipervínculos como respaldos
Un enlace de una página a otra puede interpretarse como un voto de confianza, por lo que el grafo de enlaces contiene evidencia sobre la importancia y autoridad de la página que el emparejamiento de texto puro ignora.
PageRank como medida de autoridad de paseo aleatorio
PageRank asigna a cada página una puntuación igual a su probabilidad de visita a largo plazo bajo un navegante aleatorio que sigue enlaces y ocasionalmente se teletransporta, proporcionando una medida de importancia independiente de la consulta derivada de todo el grafo de enlaces.
Clasificación aprendida por máquina sobre muchas características
La clasificación web combina cientos de señales, incluyendo relevancia textual, autoridad basada en enlaces y características de comportamiento, aprendiendo una función de clasificación a partir de datos etiquetados, reemplazando fórmulas únicas ajustadas manualmente.

Clinical relevance

Esta área es la base de los motores de búsqueda web comerciales, que organizan el acceso a la web pública para miles de millones de usuarios. El análisis de enlaces reconfiguró la forma en que se mide la autoridad en línea, y las tuberías de aprendizaje para clasificar siguen siendo fundamentales para cómo los sistemas de búsqueda y recomendación combinan señales en clasificaciones.

History

La recuperación de información web (Web IR) surgió a mediados de la década de 1990 a medida que la web superaba la navegación basada en directorios. HITS de Kleinberg y PageRank de Brin y Page, ambos alrededor de 1998 y 1999, demostraron que la estructura de hipervínculos podía clasificar páginas por autoridad, y PageRank sustentó el auge de los motores de búsqueda a gran escala. A lo largo de la década de 2000, los métodos de aprendizaje para clasificar unificaron el creciente número de señales de clasificación.

Key figures

  • Sergey Brin
  • Larry Page
  • Jon Kleinberg
  • Prabhakar Raghavan

Related topics

Seminal works

  • brin1998
  • page1999
  • kleinberg1999

Frequently asked questions

¿Por qué la web necesita métodos de recuperación diferentes a los de una colección cerrada?
La web es enorme, cambia constantemente, está hipervinculada y es adversaria, con páginas que intentan activamente clasificarse más alto. Estas condiciones añaden rastreo, señales de autoridad basadas en enlaces, resistencia al spam y clasificación aprendida a gran escala, además del emparejamiento textual utilizado en colecciones cerradas.
¿Sigue siendo importante el análisis de enlaces dada la clasificación moderna?
La autoridad basada en enlaces sigue siendo una señal entre cientos en la clasificación moderna, que ahora se apoya en gran medida en modelos aprendidos y características de comportamiento y contenido. Las ideas al estilo PageRank todavía informan cómo se propaga la importancia a través de los grafos, incluso en la recomendación y el análisis de citas.

Methods for this concept

Related concepts