웹은 왜 폐쇄형 컬렉션과 다른 검색 방법이 필요한가?

웹은 방대하고, 끊임없이 변화하며, 하이퍼링크로 연결되어 있고, 페이지들이 더 높은 순위를 차지하기 위해 적극적으로 노력하는 적대적인 환경입니다. 이러한 조건들은 폐쇄형 컬렉션에서 사용되는 텍스트 매칭 외에 크롤링, 링크 기반 권위 신호, 스팸 저항, 대규모 학습 기반 순위 결정을 추가합니다.

현대 순위 결정에서 링크 분석은 여전히 중요한가?

링크 기반 권위는 현대 순위 결정에서 수백 가지 신호 중 하나로 남아 있으며, 이제는 학습된 모델과 행동 및 콘텐츠 특징에 크게 의존합니다. PageRank 스타일의 아이디어는 추천 및 인용 분석을 포함하여 그래프를 통해 중요성이 전파되는 방식에 여전히 영향을 미칩니다.

웹 검색 및 링크 분석

웹 검색 및 링크 분석은 월드 와이드 웹(World Wide Web)에서의 정보 검색을 다루며, 여기서 하이퍼링크 구조는 권위에 대한 추가적인 증거를 제공하고 순위 결정은 대규모로 여러 특징들을 결합합니다.

PaperMind(으)로 주제 찾기곧 제공Find papers & topics

Tools & resources

슬라이드 다운로드

Learn & explore

동영상곧 제공

Definition

웹 검색 및 링크 분석은 하이퍼링크된 웹 컬렉션에 대한 검색 연구로, 텍스트 관련성과 링크 구조에서 파생된 그래프 기반 권위 신호, 그리고 개방형 웹의 규모와 적대적 조건 하에서 많은 특징들에 대한 기계 학습 기반 순위 결정을 결합합니다.

Scope

이 영역은 웹 규모 검색에 특정한 구성 요소들을 다룹니다: 크롤링과 웹의 링크 구조, PageRank 및 HITS와 같이 하이퍼링크를 추천으로 활용하는 링크 분석 알고리즘, 많은 순위 결정 특징들을 결합하는 학습 기반 순위 결정(learning-to-rank) 방법, 그리고 웹 검색 순위 결정 파이프라인의 설계. 이는 웹의 하이퍼링크된, 적대적이며 방대한 특성이 검색에 어떻게 변화를 주는지 다루며, 텍스트 증거만으로 개별 문서를 평가하는 핵심 검색 모델과는 구별됩니다.

Sub-topics

Core questions

웹은 어떻게 크롤링되고 그 링크 그래프는 어떻게 캡처되는가?
하이퍼링크 구조는 페이지의 중요성이나 권위를 어떻게 나타낼 수 있는가?
PageRank와 HITS는 링크 기반 권위를 모델링하는 데 어떻게 다른가?
많은 이질적인 순위 결정 신호들은 어떻게 단일 순서로 결합되는가?
웹 규모에서 스팸 및 적대적 조작에 대해 순위 결정은 어떻게 대처하는가?

Key concepts

웹 크롤링
웹 링크 그래프
PageRank
HITS (허브 및 권위)
앵커 텍스트
학습 기반 순위 결정
순위 결정 특징 및 신호
웹 스팸 및 적대적 IR

Key theories

추천으로서의 하이퍼링크: 한 페이지에서 다른 페이지로의 링크는 신뢰의 투표로 해석될 수 있으므로, 링크 그래프는 순수한 텍스트 매칭이 무시하는 페이지 중요성과 권위에 대한 증거를 담고 있습니다.
랜덤 워크 권위 측정으로서의 PageRank: PageRank는 링크를 따르고 가끔 텔레포트하는 무작위 서퍼(random surfer) 하에서 각 페이지에 장기 방문 확률과 동일한 점수를 할당하여, 전체 링크 그래프에서 파생된 쿼리 독립적인 중요도 측정값을 제공합니다.
많은 특징에 대한 기계 학습 기반 순위 결정: 웹 순위 결정은 텍스트 관련성, 링크 기반 권위, 행동 특징을 포함한 수백 가지 신호를 결합하며, 레이블이 지정된 데이터로부터 순위 결정 함수를 학습하여 단일 수동 조정 공식을 대체합니다.

Clinical relevance

이 영역은 수십억 명의 사용자에게 공개 웹에 대한 접근을 조직하는 상업용 웹 검색 엔진의 기반입니다. 링크 분석은 온라인에서 권위가 측정되는 방식을 재편했으며, 학습 기반 순위 결정 파이프라인은 검색 및 추천 시스템이 신호들을 순위 결정에 결합하는 방식의 핵심으로 남아 있습니다.

History

웹 IR(정보 검색)은 1990년대 중반 웹이 디렉토리 기반 탐색을 능가하면서 등장했습니다. Kleinberg의 HITS와 Brin 및 Page의 PageRank는 모두 1998년과 1999년경에 하이퍼링크 구조가 페이지를 권위에 따라 순위를 매길 수 있음을 보여주었으며, PageRank는 대규모 검색 엔진의 부상을 뒷받침했습니다. 2000년대 내내 학습 기반 순위 결정 방법은 증가하는 순위 결정 신호들을 통합했습니다.

Key figures

Sergey Brin
Larry Page
Jon Kleinberg
Prabhakar Raghavan

Seminal works

brin1998
page1999
kleinberg1999

Frequently asked questions

웹은 왜 폐쇄형 컬렉션과 다른 검색 방법이 필요한가?: 웹은 방대하고, 끊임없이 변화하며, 하이퍼링크로 연결되어 있고, 페이지들이 더 높은 순위를 차지하기 위해 적극적으로 노력하는 적대적인 환경입니다. 이러한 조건들은 폐쇄형 컬렉션에서 사용되는 텍스트 매칭 외에 크롤링, 링크 기반 권위 신호, 스팸 저항, 대규모 학습 기반 순위 결정을 추가합니다.
현대 순위 결정에서 링크 분석은 여전히 중요한가?: 링크 기반 권위는 현대 순위 결정에서 수백 가지 신호 중 하나로 남아 있으며, 이제는 학습된 모델과 행동 및 콘텐츠 특징에 크게 의존합니다. PageRank 스타일의 아이디어는 추천 및 인용 분석을 포함하여 그래프를 통해 중요성이 전파되는 방식에 여전히 영향을 미칩니다.