情報検索モデル
情報検索モデルとは、文書がクエリに合致するとはどういうことか、また、情報ニーズに応じて文書がどのようにスコアリングされ、ランク付けされるかを定義する形式的なフレームワークです。
Definition
情報検索モデルとは、文書とクエリの表現、およびクエリが与えられたときに、基礎となる情報ニーズに対する推定関連性を反映するスコアを各文書に割り当てるランキングまたはマッチング関数を正確に指定したものです。
Scope
この分野では、クエリと文書を照合し、結果をランク付けするために使用される主要な数学的モデルを扱います。これには、集合論的ブール検索および拡張ブール検索、tf-idfなどの用語重み付けを用いた代数ベクトル空間モデル、二項独立モデルやBM25を含む確率モデル、および検索のための統計的言語モデルが含まれます。関連性がどのように形式化されるか、用語の重みがどのように割り当てられるか、類似性または確率スコアがどのようにランキングを導き出すかについて論じます。検索を効率化するデータ構造(インデックス作成とクエリ処理の項目で扱われます)や、モデルの性能を経験的に測定する方法(評価の項目で扱われます)は除外されます。
Sub-topics
Core questions
- モデルは文書とクエリのどのような形式的表現を仮定していますか?
- モデルは表現を関連性スコアまたはマッチング決定にどのように変換しますか?
- 個々の用語は、文書内およびコレクション全体での重要性を反映するためにどのように重み付けされますか?
- モデルは関連性に内在する不確実性をどのように考慮しますか?
- モデルはどのような仮定(用語の独立性など)を置いており、それらはいつ破綻しますか?
Key concepts
- 関連性
- 用語の重み付けとtf-idf
- ブール検索
- ベクトル空間とコサイン類似度
- 確率ランキング原理
- 二項独立モデルとBM25
- クエリ尤度と平滑化
- 用語独立性仮定
- ランキング関数
Key theories
- ベクトル空間モデル
- 文書とクエリは、通常tf-idf重みを持つ高次元の用語空間におけるベクトルとして表現され、関連性はクエリと文書ベクトルの間の角度のコサインなどの幾何学的類似度によって推定されます。
- 確率ランキング原理と確率的検索
- クエリに対する関連性の推定確率によって文書をランク付けすることは、所定の仮定の下で検索の有効性を最適化します。二項独立モデルとその実用的な後継であるBM25は、関連性確率から導出された用語重み付けを用いてこれを具体化します。
- 情報検索への言語モデリングアプローチ
- 各文書は生成言語モデルからのサンプルとして扱われ、文書は、そのモデルがクエリを生成したであろう確率によってランク付けされます。未知のクエリ用語を処理するために平滑化が使用されます。
Clinical relevance
情報検索モデルは、図書館の蔵書目録や企業内検索から、ウェブ検索エンジン、質問応答や検索拡張生成における候補ランキング段階に至るまで、実質的にすべての検索システムのスコアリングの中核をなしています。特にtf-idfとBM25は、強力で広く展開されているベースラインとして依然として利用されています。
History
ベクトル空間モデルは、1960年代から1970年代にかけてSaltonのSMARTプロジェクトから生まれ、情報検索に代数的な基礎を与えました。並行して、RobertsonとSpärck Jonesは1970年代に確率論的な関連性重み付け理論を開発し、これは後にBM25ランキング関数として成熟しました。1998年にPonteとCroftによって導入された言語モデリングアプローチは、情報検索を統計的生成として再構築し、モデリングツールキットを広げました。
Key figures
- Gerard Salton
- Stephen E. Robertson
- Karen Spärck Jones
- W. Bruce Croft
- C. J. van Rijsbergen
Related topics
Seminal works
- salton1975
- robertson1976
- ponte1998
- manning2008
Frequently asked questions
- 情報検索モデルとランキング関数の違いは何ですか?
- 情報検索モデルは、文書とクエリがどのように表現され、関連性がどのように概念化されるかを指定する全体的なフレームワークです。ランキング関数は、ベクトル空間モデルにおけるコサイン類似度や確率モデルにおけるBM25式など、モデルが生成する具体的なスコアリング式です。
- ニューラルモデルが存在するのに、なぜBM25はまだ使われているのですか?
- BM25は高速で、トレーニングデータを必要とせず、パラメータが非常に少なく、ニューラルランカーがしばしば比較対象とし、組み合わせて使用される強力なベースラインであり続けています。多くの現代のシステムでは、BM25を使用して初期の候補セットを検索し、その後、よりコストのかかるモデルが再ランク付けを行っています。