Was bewirkt Regularisierung?

Sie verhindert, dass ein Modell zu komplex wird, in der Regel durch Hinzufügen einer Strafe für die Größe seiner Parameter oder durch Einschränkung des Trainings. Dies reduziert die Überanpassung, sodass das Modell das zugrunde liegende Muster und nicht das Rauschen erfasst und auf neuen Daten besser abschneidet.

Warum erzeugt L1-Regularisierung sparse Modelle?

Die L1-Strafe auf den Absolutwert der Parameter hat eine Form, die einige Koeffizienten genau auf Null setzt, anstatt sie nur zu schrumpfen. Dies entfernt effektiv die entsprechenden Merkmale, was zu einem einfacheren, besser interpretierbaren Modell führt.

Regularisierung und Modellkomplexität

Regularisierung steuert die Modellkomplexität, indem sie ein Modell bestraft oder einschränkt, wodurch Überanpassung reduziert und die Generalisierung verbessert wird.

Thema finden mit PaperMindDemnächstFind papers & topics

Tools & resources

Folien herunterladen

Learn & explore

VideoDemnächst

Definition

Regularisierung ist jede Modifikation eines Lernverfahrens, die dessen Tendenz zur Überanpassung reduziert, typischerweise durch Hinzufügen einer Strafe für die Modellkomplexität zum Verlust oder durch Einschränkung des Modells, sodass das angepasste Modell besser generalisiert, selbst auf Kosten einer leicht schlechteren Anpassung an die Trainingsdaten.

Scope

Dieses Thema behandelt Techniken zur Steuerung der Komplexität: L2- und L1-Strafen auf Parameter, frühes Stoppen, Dropout und Datenaugmentation in neuronalen Netzen sowie Informationskriterien, die die Komplexität bei der Modellauswahl bestrafen. Es fasst Regularisierung als Kodierung einer Präferenz für einfachere Modelle auf und verbindet sie mit der Bayes'schen Sichtweise von Priors über Parametern.

Core questions

Wie reduzieren Komplexitätsstrafen die Überanpassung?
Wie unterscheiden sich L1- und L2-Strafen in ihrer Wirkung?
Welche Regularisierungsmethoden sind spezifisch für neuronale Netze?
Wie hängt Regularisierung mit der Bayes'schen Verwendung von Priors zusammen?

Key theories

Bestrafter Verlust: Das Hinzufügen einer Strafe für die Parametergröße zum Trainingsverlust verhindert übermäßig komplexe Lösungen, wobei L2 Koeffizienten sanft schrumpft und L1 Sparsität fördert, indem einige auf Null gesetzt werden.
Regularisierung im Deep Learning: Techniken wie frühes Stoppen, Dropout, Gewichtsverfall (weight decay) und Datenaugmentation steuern die effektive Komplexität neuronaler Netze, die sonst aufgrund ihrer großen Kapazität überanpassen würden.
Bayes'sche Interpretation: Eine Komplexitätsstrafe entspricht einem Prior über Parametern, sodass die regularisierte Schätzung als das Finden der wahrscheinlichsten Parameter unter diesem Prior gelesen werden kann, was die Regularisierung mit der Bayes'schen Inferenz verbindet.

Clinical relevance

Regularisierung ist eines der wichtigsten praktischen Werkzeuge, um Modelle zu generalisieren, und sie ist unerlässlich, wenn Modelle eine hohe Kapazität im Verhältnis zu den Daten aufweisen, wie in modernen tiefen Netzen; das richtige Maß und die richtige Form der Regularisierung ist selbst ein Abstimmungsproblem, das für den Aufbau zuverlässiger Modelle von zentraler Bedeutung ist.

History

Die bestrafte Schätzung geht auf die Tikhonov-Regularisierung für schlecht gestellte Probleme und auf die Ridge-Regression in der Statistik zurück, wobei der Lasso später die Sparsität hinzufügte. Im Deep Learning wurden Methoden wie Dropout, um 2012 eingeführt, sowie Gewichtsverfall (weight decay) und Datenaugmentation zu Standardmitteln zur Kontrolle der großen Kapazität neuronaler Netze.

Key figures

Andrey Tikhonov
Robert Tibshirani
Geoffrey Hinton

Seminal works

hastie2009
goodfellow2016
tibshirani1996

Frequently asked questions

Was bewirkt Regularisierung?: Sie verhindert, dass ein Modell zu komplex wird, in der Regel durch Hinzufügen einer Strafe für die Größe seiner Parameter oder durch Einschränkung des Trainings. Dies reduziert die Überanpassung, sodass das Modell das zugrunde liegende Muster und nicht das Rauschen erfasst und auf neuen Daten besser abschneidet.
Warum erzeugt L1-Regularisierung sparse Modelle?: Die L1-Strafe auf den Absolutwert der Parameter hat eine Form, die einige Koeffizienten genau auf Null setzt, anstatt sie nur zu schrumpfen. Dies entfernt effektiv die entsprechenden Merkmale, was zu einem einfacheren, besser interpretierbaren Modell führt.