Búsqueda web y análisis de enlaces
La búsqueda web y el análisis de enlaces abordan la recuperación de información en la World Wide Web, donde la estructura de hipervínculos proporciona evidencia adicional de autoridad y donde la clasificación combina muchas características a gran escala.
Definition
La búsqueda web y el análisis de enlaces es el estudio de la recuperación en colecciones web hipervinculadas, combinando la relevancia textual con señales de autoridad basadas en grafos derivadas de la estructura de enlaces y con clasificación aprendida por máquina sobre muchas características, a la escala y bajo las condiciones adversarias de la web abierta.
Scope
Esta área cubre los componentes específicos de la recuperación a escala web: el rastreo y la estructura de enlaces de la web, algoritmos de análisis de enlaces como PageRank y HITS que explotan los hipervínculos como respaldos, métodos de aprendizaje para clasificar que combinan muchas características de clasificación, y el diseño de tuberías de clasificación de búsqueda web. Aborda cómo la naturaleza hipervinculada, adversaria y enorme de la web cambia la recuperación, a diferencia de los modelos de recuperación centrales que puntúan documentos individuales basándose únicamente en evidencia textual.
Sub-topics
Core questions
- ¿Cómo se rastrea la web y se captura su grafo de enlaces?
- ¿Cómo puede la estructura de hipervínculos indicar la importancia o autoridad de una página?
- ¿Cómo difieren PageRank y HITS en el modelado de la autoridad basada en enlaces?
- ¿Cómo se combinan muchas señales de clasificación heterogéneas en un solo orden?
- ¿Cómo se enfrenta la clasificación al spam y la manipulación adversaria a escala web?
Key concepts
- rastreo web
- el grafo de enlaces web
- PageRank
- HITS (hubs y autoridades)
- texto ancla
- aprendizaje para clasificar
- características y señales de clasificación
- spam web e IR adversaria
Key theories
- Los hipervínculos como respaldos
- Un enlace de una página a otra puede interpretarse como un voto de confianza, por lo que el grafo de enlaces contiene evidencia sobre la importancia y autoridad de la página que el emparejamiento de texto puro ignora.
- PageRank como medida de autoridad de paseo aleatorio
- PageRank asigna a cada página una puntuación igual a su probabilidad de visita a largo plazo bajo un navegante aleatorio que sigue enlaces y ocasionalmente se teletransporta, proporcionando una medida de importancia independiente de la consulta derivada de todo el grafo de enlaces.
- Clasificación aprendida por máquina sobre muchas características
- La clasificación web combina cientos de señales, incluyendo relevancia textual, autoridad basada en enlaces y características de comportamiento, aprendiendo una función de clasificación a partir de datos etiquetados, reemplazando fórmulas únicas ajustadas manualmente.
Clinical relevance
Esta área es la base de los motores de búsqueda web comerciales, que organizan el acceso a la web pública para miles de millones de usuarios. El análisis de enlaces reconfiguró la forma en que se mide la autoridad en línea, y las tuberías de aprendizaje para clasificar siguen siendo fundamentales para cómo los sistemas de búsqueda y recomendación combinan señales en clasificaciones.
History
La recuperación de información web (Web IR) surgió a mediados de la década de 1990 a medida que la web superaba la navegación basada en directorios. HITS de Kleinberg y PageRank de Brin y Page, ambos alrededor de 1998 y 1999, demostraron que la estructura de hipervínculos podía clasificar páginas por autoridad, y PageRank sustentó el auge de los motores de búsqueda a gran escala. A lo largo de la década de 2000, los métodos de aprendizaje para clasificar unificaron el creciente número de señales de clasificación.
Key figures
- Sergey Brin
- Larry Page
- Jon Kleinberg
- Prabhakar Raghavan
Related topics
Seminal works
- brin1998
- page1999
- kleinberg1999
Frequently asked questions
- ¿Por qué la web necesita métodos de recuperación diferentes a los de una colección cerrada?
- La web es enorme, cambia constantemente, está hipervinculada y es adversaria, con páginas que intentan activamente clasificarse más alto. Estas condiciones añaden rastreo, señales de autoridad basadas en enlaces, resistencia al spam y clasificación aprendida a gran escala, además del emparejamiento textual utilizado en colecciones cerradas.
- ¿Sigue siendo importante el análisis de enlaces dada la clasificación moderna?
- La autoridad basada en enlaces sigue siendo una señal entre cientos en la clasificación moderna, que ahora se apoya en gran medida en modelos aprendidos y características de comportamiento y contenido. Las ideas al estilo PageRank todavía informan cómo se propaga la importancia a través de los grafos, incluso en la recomendación y el análisis de citas.