IR有効性評価指標
有効性評価指標は、ランキングされた結果リストを、情報ニーズをどの程度満たしているかを反映する数値に変換し、システムを比較し、クエリ間で平均化することを可能にします。
PaperMindでテーマを探す近日公開Find papers & topics
Tools & resources
Learn & explore
動画近日公開
Definition
IR有効性評価指標とは、1つ以上のクエリに対するシステムのランキングされた出力と関連性判断を、検索品質を定量化するスコアにマッピングする関数であり、異なる指標は再現率、初期適合率、または上位ランクでの段階的利得を重視します。
Scope
このトピックでは、検索出力のスコアリングに使用される尺度について説明します。これには、セットベースの適合率と再現率、およびそれらのF値の組み合わせ、kにおける適合率、平均適合率、平均平均適合率を含むランク感応型尺度、逆数ランク、割引累積利得とその正規化形式などの利得ベースの尺度が含まれます。各指標が何を評価するか、指標が段階的関連性と不完全な判断をどのように扱うか、スコアがどのように集計され、有意性がテストされるかについて扱います。関連性データを提供するコレクションと判断は除外されます。
Core questions
- 適合率と再現率は、検索品質の補完的な側面をどのように捉えていますか?
- ユーザーが結果を上から下にスキャンする場合、なぜランク感応型指標が必要なのですか?
- 平均適合率は、ランキングされたリストを単一の数値にどのように要約しますか?
- nDCGのような利得ベースの指標は、段階的関連性とランク割引をどのように使用しますか?
- 不完全な関連性判断は、指標にどのように影響しますか?
Key concepts
- 適合率と再現率
- F値
- kにおける適合率
- 平均適合率とMAP
- 平均逆数ランク (MRR)
- 割引累積利得 (DCG / nDCG)
- 段階的関連性
- 不完全な判断に対する堅牢な指標 (bpref)
Key theories
- 適合率、再現率、および平均適合率
- 適合率は検索された項目のうち関連するものの割合を測定し、再現率は関連する項目のうち検索されたものの割合を測定します。平均適合率は、単一のクエリに対する再現率レベル全体で適合率を統合し、そのクエリ全体の平均 (MAP) は、ランキングされた検索の標準的な要約です。
- 割引累積利得
- 利得ベースの評価では、各結果にその段階的関連性に応じた利得を割り当て、下位ランクでの利得を割引し、その後理想的なランキングに対して正規化することでnDCGが得られます。これは、非常に高い関連性を持つ項目を上位に配置することを評価します。
- 不完全な判断による評価
- すべての文書が判断されていない場合、素朴な指標は偏りを持つ可能性があり、大規模なコレクションやプールされたコレクションにおける未判断文書に対してより堅牢なbprefや推測APなどの尺度が動機付けられます。
Clinical relevance
有効性評価指標は、検索研究と産業が進捗を測定し、システムを選択するための基準となります。特にnDCGとMAPは、評価キャンペーンや本番環境でのオフラインテストで日常的に使用されており、指標の選択は、ランキングシステムが最適化される動作を形成します。
History
適合率と再現率は、初期のIR実験にまで遡り、平均適合率はTRECアドホック評価の主力となりました。JärvelinとKekäläinenによる2002年の累積利得尺度は、段階的関連性、ランク割引評価を導入し、ウェブスタイルのランキングで支配的となったnDCGを生み出しました。不完全な判断に関する研究は、大規模なコレクションに対する堅牢な指標を生み出しました。
Key figures
- Kalervo Järvelin
- Jaana Kekäläinen
- Ellen M. Voorhees
- Chris Buckley
Related topics
Seminal works
- manning2008
- jarvelin2002
- buckley2004
Frequently asked questions
- 検索システムを評価する上で、適合率だけでは不十分なのはなぜですか?
- 適合率は、検索された結果のうち関連するものの数を測定しますが、見逃された関連文書の数を無視します。これは再現率が捉えるものです。システムは、明らかに1つの関連する結果を返すことで完璧な適合率を持つことができますが、他の多くの関連文書を見逃す可能性があります。そのため、これら2つは通常一緒に考慮されるか、ランク感応型尺度に結合されます。
- nDCGは平均平均適合率に対してどのような利点を提供しますか?
- nDCGは段階的関連性を使用し、非常に高い関連性を持つ結果とわずかに関連性を持つ結果を区別し、下位ランクでの利得を明示的に割引します。これにより、ユーザーが最上位の結果を最も重視し、関連性が単純なイエスかノーではないウェブ検索に非常に適しています。