なぜ訓練データで性能を測定してはいけないのですか？

モデルは、ノイズを含め、訓練データに密接に適合する可能性があるため、訓練誤差は新しいデータに対する誤差を過小評価します。正確な評価には、モデルが一度も見たことのないデータが必要であり、これは保持されたテストセットまたは交差検定によって得られます。

検証セットとテストセットの違いは何ですか？

検証セットは、開発中にハイパーパラメータを調整し、モデルを選択するために使用されますが、テストセットは単一の最終評価のために予約されています。これらを分離することで、調整中に行われた選択が報告される性能を過大評価するのを防ぎます。

モデルの評価と選択

モデルの評価と選択は、モデルがどの程度一般化するかを推定し、競合するモデルや設定の中から最適なものを選択するための手法です。

PaperMindでテーマを探す近日公開Find papers & topics

Tools & resources

スライドをダウンロード

Learn & explore

動画近日公開

Definition

モデル評価とは、未知のデータに対するモデルの期待される性能を推定することであり、モデル選択とは、そのような推定値を用いてモデル、特徴量、またはハイパーパラメータ設定の中から選択することです。どちらも、一般化の正確な推定を得るために、適合に使用するデータと評価に使用するデータを分離することに依存しています。

Scope

この分野は、機械学習の経験的手法を扱います。具体的には、データ保持や交差検定による一般化誤差の推定、分類と回帰のための性能指標、適切なハイパーパラメータの探索、正則化によるモデルの複雑さの制御などが含まれます。また、訓練データでの評価による楽観的バイアスを回避する方法や、モデルを公平に比較する方法についても論じます。

Sub-topics

Core questions

過度な楽観主義に陥らずに、一般化誤差をどのように推定できるか？
特定のタスクに対して、どの指標が性能を正確に捉えるか？
評価を汚染することなく、ハイパーパラメータはどのように選択されるか？
利用可能なデータに対して、モデルの複雑さはどのように調整されるか？

Key theories

正確な誤差推定: 訓練データで測定された誤差は楽観的に偏るため、保持されたテストセットや交差検定を通じて、適合に使用されていないデータに対する性能を推定することが不可欠である。
モデル選択と複雑さの制御: モデル間の選択には、適合度と複雑さのバランスを取る必要があり、検証推定値や情報量基準を用いて、最もよく一般化すると期待されるモデルを選択する。
選択と評価の分離: ハイパーパラメータは、最終的なテストセットとは別に保持された検証データで調整する必要がある。なぜなら、選択のためにテストデータを再利用すると、性能推定値が過度に楽観的になるためである。

Clinical relevance

信頼性の高い評価手法は、機械学習の結果を信頼できるものにするために不可欠です。訓練データでのテスト、テストセットでのチューニング、誤解を招く指標の選択といった失敗は、開発段階では優れているように見えるが、展開時に失敗するモデルの一般的な原因であり、この分野は責任ある実践にとって不可欠です。

History

交差検定は、1970年代にStoneらによって予測誤差を推定する方法として体系化され、赤池情報量基準やベイズ情報量基準などの情報量基準は、尤度に基づいたモデル選択規則を提供しました。機械学習が成熟するにつれて、厳密な訓練、検証、テストのプロトコルと、幅広い性能指標が標準的な実践となりました。

Debates

適切な指標の選択: 単一の精度値は、不均衡な問題やコストに敏感な問題において誤解を招く可能性があり、どの指標が現実世界の目標を最もよく反映し、どのように性能を正直に報告すべきかについて議論が巻き起こっている。

Key figures

Trevor Hastie
Robert Tibshirani
Mervyn Stone

Seminal works

hastie2009
bishop2006
murphy2012

Frequently asked questions

なぜ訓練データで性能を測定してはいけないのですか？: モデルは、ノイズを含め、訓練データに密接に適合する可能性があるため、訓練誤差は新しいデータに対する誤差を過小評価します。正確な評価には、モデルが一度も見たことのないデータが必要であり、これは保持されたテストセットまたは交差検定によって得られます。
検証セットとテストセットの違いは何ですか？: 検証セットは、開発中にハイパーパラメータを調整し、モデルを選択するために使用されますが、テストセットは単一の最終評価のために予約されています。これらを分離することで、調整中に行われた選択が報告される性能を過大評価するのを防ぎます。