À quoi sert la régularisation ?

Elle décourage un modèle de devenir trop complexe, généralement en ajoutant une pénalité sur la taille de ses paramètres ou en contraignant l'entraînement. Cela réduit le surapprentissage, de sorte que le modèle capture le motif sous-jacent plutôt que le bruit et fonctionne mieux sur de nouvelles données.

Pourquoi la régularisation L1 produit-elle des modèles parcimonieux ?

La pénalité L1 sur la valeur absolue des paramètres a une forme qui pousse certains coefficients exactement à zéro plutôt que de simplement les réduire. Cela supprime efficacement les caractéristiques correspondantes, produisant un modèle plus simple et plus interprétable.

Régularisation et complexité des modèles

La régularisation contrôle la complexité des modèles en pénalisant ou en contraignant un modèle, ce qui réduit le surapprentissage et améliore la généralisation.

Trouver un sujet avec PaperMindBientôtFind papers & topics

Tools & resources

Télécharger les diapositives

Learn & explore

VidéoBientôt

Definition

La régularisation est toute modification apportée à une procédure d'apprentissage qui réduit sa tendance au surapprentissage, généralement en ajoutant une pénalité sur la complexité du modèle à la fonction de perte ou en contraignant le modèle, de sorte que le modèle ajusté généralise mieux, même au prix d'un ajustement légèrement moins bon aux données d'entraînement.

Scope

Ce sujet aborde les techniques de contrôle de la complexité : les pénalités L2 et L1 sur les paramètres, l'arrêt précoce (early stopping), le dropout et l'augmentation de données (data augmentation) dans les réseaux de neurones, ainsi que les critères d'information qui pénalisent la complexité dans la sélection de modèles. Il présente la régularisation comme l'encodage d'une préférence pour des modèles plus simples et la relie à la perspective bayésienne des a priori sur les paramètres.

Core questions

Comment les pénalités de complexité réduisent-elles le surapprentissage ?
En quoi les pénalités L1 et L2 diffèrent-elles dans leurs effets ?
Quelles méthodes de régularisation sont spécifiques aux réseaux de neurones ?
Comment la régularisation est-elle liée à l'utilisation bayésienne des a priori ?

Key theories

Fonction de perte pénalisée: L'ajout d'une pénalité sur l'amplitude des paramètres à la fonction de perte d'entraînement décourage les solutions excessivement complexes, la pénalité L2 réduisant les coefficients de manière continue et la pénalité L1 favorisant la parcimonie en en fixant certains à zéro.
Régularisation en apprentissage profond: Des techniques telles que l'arrêt précoce (early stopping), le dropout, la décroissance des poids (weight decay) et l'augmentation de données (data augmentation) contrôlent la complexité effective des réseaux de neurones, qui, autrement, surapprendraient compte tenu de leur grande capacité.
Interprétation bayésienne: Une pénalité de complexité correspond à un a priori sur les paramètres ; ainsi, l'estimation régularisée peut être interprétée comme la recherche des paramètres les plus probables sous cet a priori, reliant la régularisation à l'inférence bayésienne.

Clinical relevance

La régularisation est l'un des outils pratiques les plus importants pour permettre aux modèles de généraliser, et elle est essentielle lorsque les modèles ont une capacité élevée par rapport aux données, comme c'est le cas dans les réseaux profonds modernes ; la quantité et la forme appropriées de régularisation constituent en soi un problème d'ajustement central pour la construction de modèles fiables.

History

L'estimation pénalisée remonte à la régularisation de Tikhonov pour les problèmes mal posés et à la régression ridge en statistique, le lasso ayant ensuite ajouté la parcimonie. En apprentissage profond, des méthodes telles que le dropout, introduit vers 2012, ainsi que la décroissance des poids (weight decay) et l'augmentation de données (data augmentation) sont devenues des moyens standards de contrôler la grande capacité des réseaux de neurones.

Key figures

Andrey Tikhonov
Robert Tibshirani
Geoffrey Hinton

Seminal works

hastie2009
goodfellow2016
tibshirani1996

Frequently asked questions

À quoi sert la régularisation ?: Elle décourage un modèle de devenir trop complexe, généralement en ajoutant une pénalité sur la taille de ses paramètres ou en contraignant l'entraînement. Cela réduit le surapprentissage, de sorte que le modèle capture le motif sous-jacent plutôt que le bruit et fonctionne mieux sur de nouvelles données.
Pourquoi la régularisation L1 produit-elle des modèles parcimonieux ?: La pénalité L1 sur la valeur absolue des paramètres a une forme qui pousse certains coefficients exactement à zéro plutôt que de simplement les réduire. Cela supprime efficacement les caractéristiques correspondantes, produisant un modèle plus simple et plus interprétable.