性能指標
性能指標は、モデルがどの程度正確に予測するかを定量化するものであり、異なる測定基準は、精度とエラーの異なるコストの側面を捉えます。
Definition
性能指標とは、評価データにおいてモデルの予測が真のターゲットとどの程度一致するかを数値的に要約したものです。適切な指標は、タスクの種類、クラスのバランス、および異なる種類のエラーの相対的なコストに依存します。
Scope
このトピックでは、モデルの性能を評価するために使用される測定基準について説明します。分類では、精度 (accuracy)、適合率 (precision)、再現率 (recall)、F値 (F-measure)、および受信者操作特性曲線 (receiver operating characteristic curve) とその曲線下面積 (area under the curve) を扱います。回帰では、平均二乗誤差 (mean squared error) と平均絶対誤差 (mean absolute error)、決定係数 (coefficient of determination) を扱います。また、対数損失 (log loss) などの確率的スコアリングルールについても触れます。クラスの不均衡や非対称なエラーコストの下での指標の選択についても考察します。
Core questions
- 特定のタスクの真の目的を反映する指標はどれか?
- 適合率と再現率はどのようにトレードオフの関係にあるのか、またそれぞれがいつ重要になるのか?
- 不均衡なデータにおいて精度が誤解を招くのはなぜか?
- 確率的予測はどのようにスコアリングされるのか?
Key theories
- 混同行列に基づく指標
- 真陽性、偽陽性、真陰性、偽陰性の数から、精度、適合率、再現率、F値が導き出されます。これらは、単一の精度値では隠されがちなトレードオフを明らかにします。
- 閾値に依存しない評価
- 受信者操作特性曲線とその曲線下面積は、すべての決定閾値における分類器の性能を要約します。これは、操作点が事前に固定されていない場合に有用です。
- 適切なスコアリングルール
- 対数損失のようなスコアリングルールは、適切に較正された確率推定値を評価し、真の確率を報告することで最小化されるため、正直な確率的予測を促進します。
Clinical relevance
適切な性能指標を選択することは極めて重要です。なぜなら、誤った指標によって最適化または評価されたモデルは、実際に重要な事柄において性能が低い可能性があるからです。詐欺検出や疾患検出のような不均衡な、あるいはリスクの高い状況では、単純な精度は特に誤解を招きやすく、指標はエラーの実際の結果を反映している必要があります。
History
多くの指標は機械学習以外の分野に由来しており、適合率と再現率は情報検索から、受信者操作特性は信号検出理論から来ています。機械学習が不均衡でリスクの高い問題に応用されるにつれて、慎重な指標の選択と複数の補完的な指標の報告が標準的な方法論となりました。
Key figures
- Trevor Hastie
- Tom Fawcett
- Christopher Bishop
Related topics
Seminal works
- hastie2009
- bishop2006
- murphy2012
Frequently asked questions
- 精度が誤解を招くのはなぜですか?
- あるクラスが他のクラスよりもはるかに一般的である場合、常に多数派クラスを予測するモデルは高い精度を持つことができますが、稀なクラスに対しては役に立たない可能性があります。適合率、再現率、受信者操作特性曲線下面積のような指標は、このような失敗を明らかにします。
- 適合率と再現率の違いは何ですか?
- 適合率は、予測された陽性のうち真に陽性であるものの割合であり、陽性予測の信頼性を測定します。再現率は、モデルが発見した実際の陽性の割合であり、実際のケースをどれだけ捉えられたかを測定します。一方を改善すると、しばしば他方が犠牲になります。