ウェブ検索とリンク分析
ウェブ検索とリンク分析は、World Wide Webにおける情報検索を扱います。ここでは、ハイパーリンク構造が信頼性の追加的な証拠を提供し、ランキングは大規模な多くの特徴を組み合わせて行われます。
Definition
ウェブ検索とリンク分析は、ハイパーリンクされたウェブコレクションにおける情報検索の研究であり、テキストの関連性、リンク構造から導かれるグラフベースの信頼性シグナル、そしてオープンウェブの規模と敵対的条件下での多くの特徴に対する機械学習によるランキングを組み合わせたものです。
Scope
この分野は、ウェブスケールの情報検索に特有の要素をカバーしています。具体的には、クローリングとウェブのリンク構造、PageRankやHITSのようなハイパーリンクを推薦として利用するリンク分析アルゴリズム、多くのランキング特徴を組み合わせる学習型ランキング手法、そしてウェブ検索ランキングパイプラインの設計です。これは、ウェブのハイパーリンクされた、敵対的で巨大な性質が情報検索をどのように変化させるかについて扱っており、テキスト証拠のみに基づいて個々の文書をスコアリングするコアな情報検索モデルとは区別されます。
Sub-topics
Core questions
- ウェブはどのようにクロールされ、そのリンクグラフはどのように捕捉されるのか?
- ハイパーリンク構造はページの重要性や信頼性をどのように示すことができるのか?
- PageRankとHITSは、リンクベースの信頼性をモデル化する上でどのように異なるのか?
- 多くの異質なランキングシグナルはどのように単一の順序付けに統合されるのか?
- ウェブスケールでのスパムや敵対的な操作に対して、ランキングはどのように対処するのか?
Key concepts
- ウェブクローリング
- ウェブリンクグラフ
- PageRank
- HITS (ハブとオーソリティ)
- アンカーテキスト
- 学習型ランキング
- ランキング特徴とシグナル
- ウェブスパムと敵対的IR
Key theories
- 推薦としてのハイパーリンク
- あるページから別のページへのリンクは、信頼の投票と解釈でき、純粋なテキストマッチングでは無視されるページの重要性や信頼性に関する証拠をリンクグラフが伝達します。
- ランダムウォーク信頼性尺度としてのPageRank
- PageRankは、リンクをたどり、時折テレポートするランダムサーファーの下での長期的な訪問確率に等しいスコアを各ページに割り当て、リンクグラフ全体から導かれるクエリに依存しない重要性の尺度を提供します。
- 多くの特徴に対する機械学習によるランキング
- ウェブランキングは、テキストの関連性、リンクベースの信頼性、行動的特徴を含む数百のシグナルを、ラベル付きデータからランキング関数を学習することによって組み合わせ、単一の手動調整された数式を置き換えます。
Clinical relevance
この分野は、何十億ものユーザーのために公開ウェブへのアクセスを組織する商用ウェブ検索エンジンの基盤です。リンク分析は、オンラインでの信頼性の測定方法を再構築し、学習型ランキングパイプラインは、検索および推薦システムがシグナルをランキングに統合する方法の中心であり続けています。
History
ウェブIRは、ウェブがディレクトリベースのナビゲーションを上回る規模に成長した1990年代半ばに出現しました。KleinbergのHITSとBrinおよびPageのPageRankは、いずれも1998年から1999年頃に、ハイパーリンク構造がページの信頼性に基づいてページをランク付けできることを示し、PageRankは大規模検索エンジンの台頭を支えました。2000年代を通じて、学習型ランキング手法は増え続けるランキングシグナルを統合しました。
Key figures
- Sergey Brin
- Larry Page
- Jon Kleinberg
- Prabhakar Raghavan
Related topics
Seminal works
- brin1998
- page1999
- kleinberg1999
Frequently asked questions
- なぜウェブはクローズドコレクションとは異なる情報検索手法を必要とするのですか?
- ウェブは巨大で、常に変化し、ハイパーリンクされており、敵対的であり、ページはより上位にランク付けされようと積極的に試みています。これらの条件は、クローズドコレクションで使用されるテキストマッチングに加えて、クローリング、リンクベースの信頼性シグナル、スパム耐性、および大規模な学習型ランキングを追加します。
- 現代のランキングにおいて、リンク分析は依然として重要ですか?
- リンクベースの信頼性は、現代のランキングにおける数百のシグナルの一つであり続けており、現在は学習モデルや行動的・コンテンツ的特徴に大きく依存しています。PageRankのようなアイデアは、推薦や引用分析を含むグラフを通じて重要性がどのように伝播するかについて、今も情報を提供しています。