웹 검색 및 링크 분석
웹 검색 및 링크 분석은 월드 와이드 웹(World Wide Web)에서의 정보 검색을 다루며, 여기서 하이퍼링크 구조는 권위에 대한 추가적인 증거를 제공하고 순위 결정은 대규모로 여러 특징들을 결합합니다.
Definition
웹 검색 및 링크 분석은 하이퍼링크된 웹 컬렉션에 대한 검색 연구로, 텍스트 관련성과 링크 구조에서 파생된 그래프 기반 권위 신호, 그리고 개방형 웹의 규모와 적대적 조건 하에서 많은 특징들에 대한 기계 학습 기반 순위 결정을 결합합니다.
Scope
이 영역은 웹 규모 검색에 특정한 구성 요소들을 다룹니다: 크롤링과 웹의 링크 구조, PageRank 및 HITS와 같이 하이퍼링크를 추천으로 활용하는 링크 분석 알고리즘, 많은 순위 결정 특징들을 결합하는 학습 기반 순위 결정(learning-to-rank) 방법, 그리고 웹 검색 순위 결정 파이프라인의 설계. 이는 웹의 하이퍼링크된, 적대적이며 방대한 특성이 검색에 어떻게 변화를 주는지 다루며, 텍스트 증거만으로 개별 문서를 평가하는 핵심 검색 모델과는 구별됩니다.
Sub-topics
Core questions
- 웹은 어떻게 크롤링되고 그 링크 그래프는 어떻게 캡처되는가?
- 하이퍼링크 구조는 페이지의 중요성이나 권위를 어떻게 나타낼 수 있는가?
- PageRank와 HITS는 링크 기반 권위를 모델링하는 데 어떻게 다른가?
- 많은 이질적인 순위 결정 신호들은 어떻게 단일 순서로 결합되는가?
- 웹 규모에서 스팸 및 적대적 조작에 대해 순위 결정은 어떻게 대처하는가?
Key concepts
- 웹 크롤링
- 웹 링크 그래프
- PageRank
- HITS (허브 및 권위)
- 앵커 텍스트
- 학습 기반 순위 결정
- 순위 결정 특징 및 신호
- 웹 스팸 및 적대적 IR
Key theories
- 추천으로서의 하이퍼링크
- 한 페이지에서 다른 페이지로의 링크는 신뢰의 투표로 해석될 수 있으므로, 링크 그래프는 순수한 텍스트 매칭이 무시하는 페이지 중요성과 권위에 대한 증거를 담고 있습니다.
- 랜덤 워크 권위 측정으로서의 PageRank
- PageRank는 링크를 따르고 가끔 텔레포트하는 무작위 서퍼(random surfer) 하에서 각 페이지에 장기 방문 확률과 동일한 점수를 할당하여, 전체 링크 그래프에서 파생된 쿼리 독립적인 중요도 측정값을 제공합니다.
- 많은 특징에 대한 기계 학습 기반 순위 결정
- 웹 순위 결정은 텍스트 관련성, 링크 기반 권위, 행동 특징을 포함한 수백 가지 신호를 결합하며, 레이블이 지정된 데이터로부터 순위 결정 함수를 학습하여 단일 수동 조정 공식을 대체합니다.
Clinical relevance
이 영역은 수십억 명의 사용자에게 공개 웹에 대한 접근을 조직하는 상업용 웹 검색 엔진의 기반입니다. 링크 분석은 온라인에서 권위가 측정되는 방식을 재편했으며, 학습 기반 순위 결정 파이프라인은 검색 및 추천 시스템이 신호들을 순위 결정에 결합하는 방식의 핵심으로 남아 있습니다.
History
웹 IR(정보 검색)은 1990년대 중반 웹이 디렉토리 기반 탐색을 능가하면서 등장했습니다. Kleinberg의 HITS와 Brin 및 Page의 PageRank는 모두 1998년과 1999년경에 하이퍼링크 구조가 페이지를 권위에 따라 순위를 매길 수 있음을 보여주었으며, PageRank는 대규모 검색 엔진의 부상을 뒷받침했습니다. 2000년대 내내 학습 기반 순위 결정 방법은 증가하는 순위 결정 신호들을 통합했습니다.
Key figures
- Sergey Brin
- Larry Page
- Jon Kleinberg
- Prabhakar Raghavan
Related topics
Seminal works
- brin1998
- page1999
- kleinberg1999
Frequently asked questions
- 웹은 왜 폐쇄형 컬렉션과 다른 검색 방법이 필요한가?
- 웹은 방대하고, 끊임없이 변화하며, 하이퍼링크로 연결되어 있고, 페이지들이 더 높은 순위를 차지하기 위해 적극적으로 노력하는 적대적인 환경입니다. 이러한 조건들은 폐쇄형 컬렉션에서 사용되는 텍스트 매칭 외에 크롤링, 링크 기반 권위 신호, 스팸 저항, 대규모 학습 기반 순위 결정을 추가합니다.
- 현대 순위 결정에서 링크 분석은 여전히 중요한가?
- 링크 기반 권위는 현대 순위 결정에서 수백 가지 신호 중 하나로 남아 있으며, 이제는 학습된 모델과 행동 및 콘텐츠 특징에 크게 의존합니다. PageRank 스타일의 아이디어는 추천 및 인용 분석을 포함하여 그래프를 통해 중요성이 전파되는 방식에 여전히 영향을 미칩니다.