バイアス-バリアンスと過学習
バイアス-バリアンスのトレードオフは、モデルの複雑さが予測誤差をどのように制御するかを説明するものであり、過学習と未学習は、学習者がバランスを取らなければならない2つの失敗モードです。
PaperMindでテーマを探す近日公開Find papers & topics
Tools & resources
Learn & explore
動画近日公開
Definition
バイアス-バリアンスのトレードオフとは、予測誤差の期待値が、真実を捉えるにはモデルが単純すぎることに起因する誤差であるバイアスと、特定の訓練サンプルに対してモデルが敏感すぎることに起因する誤差であるバリアンスに分解されるという原則であり、モデルの複雑さによって誤差がこの2つの間で移動します。
Scope
このトピックでは、予測誤差の期待値がバイアス、バリアンス、および既約ノイズに分解されること、過学習と未学習の意味、および正則化がバランスをどのように変化させるかについて説明します。また、古典的なU字型誤差曲線と、高度に過剰パラメータ化されたモデルにおける二重降下の最近の観察についても取り上げます。
Core questions
- 期待誤差はどのようにバイアス、バリアンス、ノイズに分解されますか?
- 過学習と未学習を特徴づけるものは何ですか?
- 正則化はバイアス-バリアンスのバランスをどのように変化させますか?
- 非常に柔軟なモデルが、高い能力にもかかわらず汎化できるのはなぜですか?
Key theories
- バイアス-バリアンス分解
- 二乗誤差損失の場合、期待誤差は二乗バイアス、バリアンス、および既約ノイズに分解され、単純化された仮定がバイアスのコストでバリアンスをどのように減少させるか、またその逆も同様に明示されます。
- 過学習と正則化
- 過学習は、モデルが信号ではなくノイズを捉えるときに発生します。正則化は複雑さにペナルティを課してバリアンスを減らし、バイアスのわずかな増加と引き換えにバリアンスを大きく減少させます。
- 古典的なトレードオフを超えて
- 非常に過剰パラメータ化された領域では、誤差は補間点を超えて再び減少することがあり、これは二重降下現象と呼ばれ、単一のU字型曲線の古典的な図を複雑にしています。
Clinical relevance
バイアス-バリアンスのトレードオフは、モデル適合の実際的な核心であり、新しいデータに対する誤差を最小限に抑えるために、モデルサイズ、正則化の強さ、および特徴量の数の選択を導きます。モデルが未学習であるか過学習であるかを診断することは、応用機械学習における日常的かつ不可欠なステップです。
History
バイアス-バリアンス分解は、1992年頃にGemanらがニューラルネットワークと学習について明確にし、統計学と機械学習における標準的な視点となりました。正則化理論は複雑性制御を形式化し、最近の二重降下の発見は、現代の過剰パラメータ化されたモデルに対するトレードオフの再検討を促しています。
Key figures
- Stuart Geman
- Trevor Hastie
- Christopher Bishop
Related topics
Seminal works
- hastie2009
- bishop2006
- geman1992
Frequently asked questions
- 過学習と未学習の違いは何ですか?
- 未学習とは、モデルが基となるパターンを捉えるには単純すぎる場合であり、高いバイアスと訓練データでさえも低い性能を示します。過学習とは、モデルが非常に柔軟であるため、訓練データ内のノイズに適合し、高いバリアンスと新しいデータに対する低い性能を示す場合です。
- 正則化はどのように役立ちますか?
- 正則化はモデルの複雑さにペナルティを追加し、極端なパラメータや多数のパラメータを抑制します。これによりバリアンスが減少し、通常はバイアスのわずかな増加を伴いますが、複雑さが過度に高くなる場合に、未知のデータに対する総誤差を低減します。