Quelle est la différence entre la régression Ridge et la régression Lasso ?

Les deux ajoutent une pénalité sur la taille des coefficients aux moindres carrés ordinaires. Ridge utilise une pénalité quadratique (L2) qui réduit tous les coefficients de manière continue, tandis que Lasso utilise une pénalité de valeur absolue (L1) qui peut fixer certains coefficients exactement à zéro, sélectionnant ainsi efficacement un sous-ensemble de caractéristiques.

Pourquoi l'erreur quadratique est-elle si couramment utilisée ?

La minimisation de l'erreur quadratique donne la moyenne conditionnelle comme meilleur prédicteur et correspond au maximum de vraisemblance lorsque le bruit est gaussien. Elle est également mathématiquement commode car elle conduit à des solutions de forme fermée ou différentiables de manière continue.

Régression et approximation de fonction

La régression consiste à apprendre une fonction à valeurs continues à partir d'exemples étiquetés, permettant de prédire des cibles numériques et d'approximer une relation entrée-sortie inconnue.

Trouver un sujet avec PaperMindBientôtFind papers & topics

Tools & resources

Télécharger les diapositives

Learn & explore

VidéoBientôt

Definition

La régression est la tâche supervisée consistant à estimer une fonction qui associe des entrées à une sortie continue, généralement en minimisant une fonction de perte, telle que l'erreur quadratique, sur des exemples d'apprentissage, avec des pénalités de régularisation utilisées pour réduire les coefficients et limiter le surapprentissage.

Scope

Ce sujet couvre l'apprentissage supervisé de sorties à valeurs réelles : la régression linéaire et polynomiale, les modèles à fonctions de base et à splines, la régularisation de type Ridge et Lasso, l'objectif des moindres carrés et son interprétation probabiliste comme bruit gaussien, ainsi que le compromis biais-variance qui détermine la flexibilité appropriée de la fonction ajustée.

Core questions

Comment une fonction continue est-elle ajustée à des données étiquetées bruitées ?
Quelles fonctions de perte correspondent à quelles hypothèses de bruit ?
Comment les pénalités Ridge et Lasso arbitrent-elles entre l'ajustement et la complexité du modèle ?
Quelle doit être la flexibilité d'une fonction de régression pour équilibrer le biais et la variance ?

Key theories

Les moindres carrés et la perspective de Gauss-Markov: La minimisation de l'erreur quadratique donne la moyenne conditionnelle comme prédicteur optimal sous un bruit additif, et pour les modèles linéaires, elle fournit le meilleur estimateur linéaire sans biais, reliant ainsi la régression à l'estimation du maximum de vraisemblance sous un bruit gaussien.
Régression régularisée: La régression Ridge réduit les coefficients vers zéro avec une pénalité L2, tandis que le Lasso utilise une pénalité L1 qui peut fixer des coefficients exactement à zéro, effectuant ainsi une sélection de variables et améliorant la prédiction en haute dimension.
Développement en fonctions de base: Les relations non linéaires sont capturées en transformant les entrées via des fonctions de base fixes ou adaptatives, telles que les polynômes, les splines ou les fonctions radiales, de sorte qu'un modèle linéaire appliqué aux nouvelles caractéristiques ajuste une fonction non linéaire des caractéristiques originales.

Clinical relevance

La régression est essentielle pour la prévision, l'ajustement de courbes scientifiques, la modélisation des risques et toute tâche ayant une cible numérique. Les mêmes concepts de régularisation qui améliorent la régression, tels que Ridge et Lasso, se retrouvent dans l'ensemble de l'apprentissage automatique comme un moyen général de contrôler la complexité des modèles.

History

La régression par les moindres carrés remonte à Gauss et Legendre et est devenue un outil prédictif fondamental en apprentissage automatique. La régression Ridge a introduit la contraction (shrinkage) pour stabiliser les problèmes mal conditionnés, et le Lasso, introduit par Tibshirani en 1996, a fait de la régression parcimonieuse une technique standard pour la prédiction en haute dimension et la sélection de variables.

Key figures

Trevor Hastie
Robert Tibshirani
Arthur Hoerl

Seminal works

hastie2009
bishop2006
tibshirani1996

Frequently asked questions

Quelle est la différence entre la régression Ridge et la régression Lasso ?: Les deux ajoutent une pénalité sur la taille des coefficients aux moindres carrés ordinaires. Ridge utilise une pénalité quadratique (L2) qui réduit tous les coefficients de manière continue, tandis que Lasso utilise une pénalité de valeur absolue (L1) qui peut fixer certains coefficients exactement à zéro, sélectionnant ainsi efficacement un sous-ensemble de caractéristiques.
Pourquoi l'erreur quadratique est-elle si couramment utilisée ?: La minimisation de l'erreur quadratique donne la moyenne conditionnelle comme meilleur prédicteur et correspond au maximum de vraisemblance lorsque le bruit est gaussien. Elle est également mathématiquement commode car elle conduit à des solutions de forme fermée ou différentiables de manière continue.