Was ist der Unterschied zwischen Ridge- und Lasso-Regression?

Beide fügen den gewöhnlichen kleinsten Quadraten eine Strafe für die Koeffizientengröße hinzu. Ridge verwendet eine quadrierte (L2) Strafe, die alle Koeffizienten gleichmäßig schrumpft, während Lasso eine Absolutwert- (L1) Strafe verwendet, die einige Koeffizienten exakt auf Null setzen kann, wodurch effektiv eine Untergruppe von Merkmalen ausgewählt wird.

Warum wird der quadrierte Fehler so häufig verwendet?

Die Minimierung des quadrierten Fehlers ergibt den bedingten Mittelwert als besten Prädiktor und entspricht der Maximum-Likelihood-Schätzung, wenn das Rauschen Gaußsch ist. Es ist auch mathematisch bequem, da es geschlossene oder glatt differenzierbare Lösungen liefert.

Regression und Funktionsapproximation

Regression lernt eine kontinuierlich bewertete Funktion aus gelabelten Beispielen, sagt numerische Ziele voraus und approximiert eine unbekannte Eingabe-Ausgabe-Beziehung.

Thema finden mit PaperMindDemnächstFind papers & topics

Tools & resources

Folien herunterladen

Learn & explore

VideoDemnächst

Definition

Regression ist die überwachte Aufgabe, eine Funktion zu schätzen, die Eingaben auf eine kontinuierliche Ausgabe abbildet, typischerweise durch Minimierung eines Verlustes wie dem quadrierten Fehler über Trainingsbeispiele, wobei Regularisierungsstrafen verwendet werden, um Koeffizienten zu verkleinern und Overfitting zu begrenzen.

Scope

Dieses Thema behandelt das überwachte Lernen von reellwertigen Ausgaben: lineare und polynomische Regression, Basisfunktions- und Spline-Modelle, Ridge- und Lasso-Regularisierung, das Kleinste-Quadrate-Ziel und seine probabilistische Interpretation als Gaußsches Rauschen sowie den Bias-Varianz-Kompromiss, der bestimmt, wie flexibel die angepasste Funktion sein sollte.

Core questions

Wie wird eine kontinuierliche Funktion an verrauschte, gelabelte Daten angepasst?
Welche Verlustfunktionen entsprechen welchen Rauschannahmen?
Wie tauschen Ridge- und Lasso-Strafen die Anpassung gegen die Modellkomplexität ein?
Wie flexibel sollte eine Regressionsfunktion sein, um Bias und Varianz auszugleichen?

Key theories

Kleinste Quadrate und die Gauss-Markov-Perspektive: Die Minimierung des quadrierten Fehlers ergibt den bedingten Mittelwert als optimalen Prädiktor unter additivem Rauschen, und für lineare Modelle liefert sie die beste lineare unverzerrte Schätzung, wodurch die Regression mit der Maximum-Likelihood-Schätzung unter Gaußschem Rauschen verknüpft wird.
Regularisierte Regression: Die Ridge-Regression schrumpft Koeffizienten mit einer L2-Strafe gegen Null, während das Lasso eine L1-Strafe verwendet, die Koeffizienten exakt auf Null setzen kann, wodurch Variablenselektion durchgeführt und die Vorhersage in hohen Dimensionen verbessert wird.
Basisfunktionsentwicklung: Nichtlineare Beziehungen werden durch die Abbildung von Eingaben mittels fester oder adaptiver Basisfunktionen, wie Polynomen, Splines oder radialen Funktionen, erfasst, so dass ein lineares Modell in den neuen Merkmalen eine nichtlineare Funktion der Originale anpasst.

Clinical relevance

Regression ist zentral für Prognosen, wissenschaftliche Kurvenanpassung, Risikomodellierung und jede Aufgabe mit einem numerischen Ziel, und dieselben Regularisierungsideen, die die Regression verbessern, wie Ridge und Lasso, treten in der gesamten maschinellen Lernforschung als allgemeines Mittel zur Kontrolle der Modellkomplexität immer wieder auf.

History

Die Kleinste-Quadrate-Regression geht auf Gauß und Legendre zurück und wurde im maschinellen Lernen zu einem grundlegenden Vorhersagewerkzeug. Die Ridge-Regression führte die Schrumpfung ein, um schlecht konditionierte Probleme zu stabilisieren, und das Lasso, 1996 von Tibshirani eingeführt, machte die dünnbesetzte Regression zu einer Standardtechnik für hochdimensionale Vorhersagen und Variablenselektion.

Key figures

Trevor Hastie
Robert Tibshirani
Arthur Hoerl

Seminal works

hastie2009
bishop2006
tibshirani1996

Frequently asked questions

Was ist der Unterschied zwischen Ridge- und Lasso-Regression?: Beide fügen den gewöhnlichen kleinsten Quadraten eine Strafe für die Koeffizientengröße hinzu. Ridge verwendet eine quadrierte (L2) Strafe, die alle Koeffizienten gleichmäßig schrumpft, während Lasso eine Absolutwert- (L1) Strafe verwendet, die einige Koeffizienten exakt auf Null setzen kann, wodurch effektiv eine Untergruppe von Merkmalen ausgewählt wird.
Warum wird der quadrierte Fehler so häufig verwendet?: Die Minimierung des quadrierten Fehlers ergibt den bedingten Mittelwert als besten Prädiktor und entspricht der Maximum-Likelihood-Schätzung, wenn das Rauschen Gaußsch ist. Es ist auch mathematisch bequem, da es geschlossene oder glatt differenzierbare Lösungen liefert.