웹 크롤링 및 링크 구조
웹 크롤링은 하이퍼링크를 따라 웹 페이지를 발견하고 다운로드하는 자동화된 과정이며, 그 결과로 생성되는 링크 구조는 검색 시스템이 탐색하고 분석하는 그래프를 형성합니다.
Definition
웹 크롤링은 시드 URL에서 시작하여 페이지를 반복적으로 가져오고 해당 페이지의 외부 링크를 추출하여 더 많은 페이지를 발견하는 알고리즘적 웹 탐색이며, 링크 구조는 페이지와 페이지 간의 하이퍼링크로 형성된 방향성 그래프를 의미합니다.
Scope
이 주제는 크롤러가 웹 페이지를 체계적으로 가져오는 방법과 웹의 하이퍼링크 그래프가 어떻게 구성되는지를 다룹니다. 크롤러 아키텍처, URL 프론티어 및 정중함 제약 조건, 중복 및 거의 중복 감지, 신선도 및 재크롤링 스케줄링, 로봇 배제 존중 등을 다룹니다. 또한 웹 그래프의 경험적 속성(예: 넓은 나비 넥타이 구조 및 멱법칙 분포를 따르는 연결 차수 분포)도 다루며, 이는 크롤링 및 링크 분석 모두에 정보를 제공합니다. PageRank 및 HITS에서 다루는 링크의 순위 지정 사용은 제외합니다.
Core questions
- 크롤러는 가져올 페이지를 어떻게 발견하고, 우선순위를 지정하며, 스케줄링합니까?
- 크롤링 중 정중함, 로봇 배제 및 서버 부하는 어떻게 존중됩니까?
- 중복 및 거의 중복 페이지는 어떻게 감지되고 처리됩니까?
- 페이지가 변경될 때 크롤링 신선도는 어떻게 유지됩니까?
- 웹 그래프는 어떤 대규모 구조를 나타냅니까?
Key concepts
- 웹 크롤러 / 스파이더
- URL 프론티어 및 시드 세트
- 크롤링 정중함 및 robots.txt
- 중복 및 거의 중복 감지
- 신선도 및 재크롤링 스케줄링
- 웹 그래프
- 나비 넥타이 구조
- 내부 연결 차수 및 외부 연결 차수 분포
Key theories
- 크롤러 아키텍처 및 URL 프론티어
- 크롤러는 가져올 URL의 프론티어를 유지하고, 우선순위 및 정중함 정책을 적용하며, 가져온 페이지를 파싱하여 새 링크를 추출하고, 방문한 페이지를 추적하여 커버리지, 신선도 및 리소스 제한의 균형을 맞춥니다.
- 거시적 웹 그래프 구조
- 경험적 연구에 따르면 웹의 링크 그래프는 큰 강하게 연결된 핵심 부분과 핵심 부분에 도달할 수 있는 '인(in)' 구성 요소, 핵심 부분에서 도달할 수 있는 '아웃(out)' 구성 요소, 그리고 촉수 및 단절된 부분을 포함하는 특징적인 나비 넥타이 모양을 가지며, 멱법칙 분포를 따르는 내부 연결 차수는 도달 가능성을 제한하고 크롤링 전략에 정보를 제공합니다.
Clinical relevance
크롤링은 모든 웹 검색 엔진과 대규모 웹 분석, 아카이빙 및 데이터셋 구축의 데이터 획득 단계입니다. 링크 구조를 이해하는 것은 효율적인 크롤링을 안내하고, 커버리지를 추정하는 데 도움이 되며, 순위 지정에 사용되는 링크 기반 권위 측정의 기반이 됩니다.
History
웹 크롤러는 1990년대 중반 초기 웹과 함께 등장하여 검색 인덱스에 데이터를 공급했습니다. Cho와 동료들은 1998년에 효율적인 크롤링과 URL 순서 지정을 연구했으며, 2000년의 '웹의 그래프 구조' 연구는 웹의 나비 넥타이 거시 구조를 밝혀냈습니다. 웹이 성장함에 따라 크롤링은 신선도, 커버리지 및 정중함을 강조하는 대규모 분산 시스템 분야로 발전했습니다.
Key figures
- Andrei Broder
- Prabhakar Raghavan
- Junghoo Cho
- Hector García-Molina
Related topics
Seminal works
- broder2000
- cho1998
- manning2008
Frequently asked questions
- 크롤러의 URL 프론티어는 무엇입니까?
- URL 프론티어는 발견되었지만 아직 가져오지 않은 URL의 대기열입니다. 크롤러는 우선순위 및 정중함 정책에 따라 프론티어에서 URL을 반복적으로 선택하고, 페이지를 가져오고, 새 링크를 추출하며, 이전에 보지 못한 URL을 다시 프론티어에 추가합니다.
- 웹의 '나비 넥타이' 구조는 무엇을 의미합니까?
- 대규모 연구에 따르면 웹 그래프는 큰 강하게 연결된 핵심 부분, 핵심 부분에 도달할 수 있는 페이지의 '인(in)' 구성 요소, 핵심 부분에서 도달할 수 있는 '아웃(out)' 구성 요소, 그리고 촉수 및 단절된 부분을 가지며, 이는 나비 넥타이와 유사합니다. 이 모양은 크롤러가 주어진 시드에서 도달할 수 있는 페이지에 영향을 미칩니다.