Rastreo web y estructura de enlaces
El rastreo web es el proceso automatizado de descubrir y descargar páginas web siguiendo hipervínculos, y la estructura de enlaces resultante forma un grafo que los sistemas de búsqueda tanto atraviesan como analizan.
Definition
El rastreo web es el recorrido algorítmico de la web que comienza a partir de URL semilla y repetidamente obtiene páginas y extrae sus enlaces salientes para descubrir más páginas, mientras que la estructura de enlaces se refiere al grafo dirigido formado por páginas y los hipervínculos entre ellas.
Scope
Este tema cubre cómo los rastreadores obtienen sistemáticamente páginas web y cómo se estructura el grafo de hipervínculos de la web. Aborda la arquitectura del rastreador, la frontera de URL y las restricciones de cortesía, la detección de duplicados y casi duplicados, la frescura y la programación de nuevos rastreos, y el respeto a la exclusión de robots. También cubre las propiedades empíricas del grafo web, como su amplia estructura de "pajarita" (bowtie) y la distribución de grados de cola pesada, que informan tanto el rastreo como el análisis de enlaces. Excluye el uso de enlaces para la clasificación, tratado en PageRank y HITS.
Core questions
- ¿Cómo descubre, prioriza y programa un rastreador las páginas que obtiene?
- ¿Cómo se respetan la cortesía, la exclusión de robots y la carga del servidor durante el rastreo?
- ¿Cómo se detectan y manejan las páginas duplicadas y casi duplicadas?
- ¿Cómo se mantiene la frescura del rastreo a medida que cambian las páginas?
- ¿Qué estructura a gran escala exhibe el grafo web?
Key concepts
- rastreador web / araña
- frontera de URL y conjunto semilla
- cortesía de rastreo y robots.txt
- detección de duplicados y casi duplicados
- frescura y programación de nuevos rastreos
- el grafo web
- estructura de pajarita (bowtie)
- distribuciones de grado de entrada y grado de salida
Key theories
- Arquitectura del rastreador y la frontera de URL
- Un rastreador mantiene una frontera de URL para obtener, aplica políticas de priorización y cortesía, analiza las páginas obtenidas para extraer nuevos enlaces y rastrea las páginas visitadas, equilibrando la cobertura, la frescura y los límites de recursos.
- Estructura macroscópica del grafo web
- Estudios empíricos muestran que el grafo de enlaces de la web tiene una forma característica de pajarita con un gran núcleo fuertemente conectado más componentes de entrada y salida, y un grado de entrada de cola pesada, lo que restringe la alcanzabilidad e informa la estrategia de rastreo.
Clinical relevance
El rastreo es la etapa de adquisición de datos de todo motor de búsqueda web y de análisis web a gran escala, archivo y construcción de conjuntos de datos. La comprensión de la estructura de enlaces guía el rastreo eficiente, ayuda a estimar la cobertura y sustenta las medidas de autoridad basadas en enlaces utilizadas en la clasificación.
History
Los rastreadores web aparecieron con la web temprana a mediados de la década de 1990 para alimentar los índices de búsqueda. Cho y sus colegas estudiaron el rastreo eficiente y la ordenación de URL en 1998, y el estudio de 2000 sobre la 'estructura de grafos en la web' reveló la macroestructura de pajarita de la web. A medida que la web creció, el rastreo maduró hasta convertirse en una disciplina de sistemas distribuidos a gran escala que enfatiza la frescura, la cobertura y la cortesía.
Key figures
- Andrei Broder
- Prabhakar Raghavan
- Junghoo Cho
- Hector García-Molina
Related topics
Seminal works
- broder2000
- cho1998
- manning2008
Frequently asked questions
- ¿Qué es la frontera de URL en un rastreador?
- La frontera de URL es la cola de URL descubiertas pero aún no obtenidas. Un rastreador selecciona repetidamente URL de la frontera de acuerdo con las políticas de prioridad y cortesía, obtiene las páginas, extrae nuevos enlaces y añade las URL no vistas previamente de nuevo a la frontera.
- ¿Qué significa la estructura de 'pajarita' (bowtie) de la web?
- Estudios a gran escala encontraron que el grafo web tiene un gran núcleo fuertemente conectado, un componente de 'entrada' de páginas que pueden alcanzar el núcleo, un componente de 'salida' alcanzable desde él, además de zarcillos y partes desconectadas, asemejándose a una pajarita. Esta forma afecta qué páginas puede alcanzar un rastreador desde semillas dadas.