ScholarGate
Assistant

Biais-variance et surapprentissage

Le compromis biais-variance explique comment la complexité du modèle contrôle l'erreur de prédiction, le surapprentissage et le sous-apprentissage étant les deux modes de défaillance qu'un apprenant doit équilibrer.

Trouver un sujet avec PaperMindBientôtFind papers & topics
Tools & resources
Télécharger les diapositives
Learn & explore
VidéoBientôt

Definition

Le compromis biais-variance est le principe selon lequel l'erreur de prédiction attendue se décompose en biais, l'erreur résultant d'un modèle trop simple pour capturer la réalité, et en variance, l'erreur résultant d'un modèle trop sensible à l'échantillon d'entraînement particulier, la complexité du modèle déplaçant l'erreur entre ces deux composantes.

Scope

Ce sujet couvre la décomposition de l'erreur de prédiction attendue en biais, variance et bruit irréductible ; la signification du surapprentissage et du sous-apprentissage ; et le rôle de la régularisation dans le déplacement de cet équilibre. Il aborde également la courbe d'erreur classique en forme de U et les observations récentes de double descente dans les modèles fortement surparamétrés.

Core questions

  • Comment l'erreur attendue se décompose-t-elle en biais, variance et bruit ?
  • Qu'est-ce qui caractérise le surapprentissage par rapport au sous-apprentissage ?
  • Comment la régularisation déplace-t-elle l'équilibre biais-variance ?
  • Pourquoi des modèles très flexibles peuvent-ils parfois généraliser malgré une capacité élevée ?

Key theories

Décomposition biais-variance
Pour la perte quadratique, l'erreur attendue se divise en biais au carré, variance et bruit irréductible, explicitant comment les hypothèses simplificatrices réduisent la variance au prix du biais et vice versa.
Surapprentissage et régularisation
Le surapprentissage se produit lorsqu'un modèle capture le bruit plutôt que le signal ; la régularisation pénalise la complexité pour réduire la variance, échangeant une petite augmentation du biais contre une plus grande diminution de la variance.
Au-delà du compromis classique
Dans les régimes très surparamétrés, l'erreur peut diminuer à nouveau au-delà du point d'interpolation, c'est le phénomène de double descente, ce qui complique l'image classique d'une seule courbe en U.

Clinical relevance

Le compromis biais-variance est le fondement pratique de l'ajustement de modèle, guidant les choix de taille de modèle, de force de régularisation et de nombre de caractéristiques afin de minimiser l'erreur sur de nouvelles données ; diagnostiquer si un modèle est en sous-apprentissage ou en surapprentissage est une étape routinière et essentielle en apprentissage automatique appliqué.

History

La décomposition biais-variance a été formulée pour les réseaux neuronaux et l'apprentissage par Geman et ses collègues vers 1992 et est devenue un cadre de référence standard en statistique et en apprentissage automatique. La théorie de la régularisation a formalisé le contrôle de la complexité, et les découvertes récentes sur la double descente ont incité à un réexamen du compromis pour les modèles surparamétrés modernes.

Key figures

  • Stuart Geman
  • Trevor Hastie
  • Christopher Bishop

Related topics

Seminal works

  • hastie2009
  • bishop2006
  • geman1992

Frequently asked questions

Quelle est la différence entre le surapprentissage et le sous-apprentissage ?
Le sous-apprentissage se produit lorsqu'un modèle est trop simple pour capturer le motif sous-jacent, entraînant un biais élevé et de mauvaises performances même sur les données d'entraînement. Le surapprentissage se produit lorsqu'un modèle est si flexible qu'il s'ajuste au bruit dans les données d'entraînement, entraînant une variance élevée et de mauvaises performances sur de nouvelles données.
Comment la régularisation aide-t-elle ?
La régularisation ajoute une pénalité sur la complexité du modèle, décourageant les paramètres extrêmes ou nombreux. Cela réduit la variance, généralement au prix d'une légère augmentation du biais, et réduit ainsi l'erreur totale sur les données non vues lorsque la complexité serait autrement trop élevée.

Methods for this concept

Related concepts