Was ist der Unterschied zwischen einem Parameter und einem Hyperparameter?

Parameter, wie die Gewichte eines Modells, werden aus den Trainingsdaten gelernt. Hyperparameter, wie die Lernrate oder die Regularisierungsstärke, werden vor dem Training festgelegt und steuern, wie das Lernen abläuft; sie werden durch die Suche nach Kandidatenwerten und die Bewertung anhand von Validierungsdaten ausgewählt.

Warum ist die Zufallssuche oft besser als die Gittersuche?

Wenn nur wenige Hyperparameter die Leistung stark beeinflussen, verschwendet die Gittersuche viele Versuche, indem sie die unwichtigen variiert. Die Zufallsstichprobe erkundet die wichtigen Dimensionen bei gleicher Anzahl von Versuchen gründlicher, sodass sie tendenziell schneller gute Einstellungen findet.

Hyperparameter-Optimierung

Die Hyperparameter-Optimierung sucht nach den Konfigurationseinstellungen eines Lernalgorithmus, die die beste Generalisierung ergeben, da diese nicht direkt aus Daten gelernt werden.

Thema finden mit PaperMindDemnächstFind papers & topics

Tools & resources

Folien herunterladen

Learn & explore

VideoDemnächst

Definition

Hyperparameter-Optimierung ist der Prozess der Auswahl der Werte der Konfigurationsparameter eines Modells, die vor dem Training festgelegt und nicht aus den Daten gelernt werden, indem Kandidateneinstellungen anhand von zurückgehaltenen Validierungsdaten bewertet und die Konfiguration ausgewählt wird, die am besten generalisiert.

Scope

Dieses Thema behandelt Methoden zur Abstimmung der Einstellungen, die einen Lernalgorithmus steuern, wie z.B. Lernrate, Regularisierungsstärke und Architekturentscheidungen: Gittersuche, Zufallssuche, Bayessche Optimierung mit Surrogatmodellen sowie Successive-Halving- und Bandit-basierte Ansätze. Es wird erläutert, warum Hyperparameter anhand von Validierungsdaten ausgewählt werden müssen und wie der Suchaufwand verwaltet wird.

Core questions

Was unterscheidet Hyperparameter von Modellparametern?
Wie unterscheiden sich Gitter- und Zufallssuche in ihrer Effizienz?
Wie nutzt die Bayessche Optimierung frühere Bewertungen, um die Suche zu leiten?
Warum müssen Hyperparameter anhand von Validierungs- und nicht von Testdaten abgestimmt werden?

Key theories

Gitter- und Zufallssuche: Die Gittersuche bewertet alle Kombinationen auf einem vordefinierten Gitter, während die Zufallssuche Konfigurationen zufällig abtastet und oft effizienter ist, wenn nur wenige Hyperparameter die Leistung stark beeinflussen.
Bayessche Optimierung: Die Bayessche Optimierung passt ein probabilistisches Surrogatmodell der Leistung als Funktion der Hyperparameter an und verwendet es, um vielversprechende Konfigurationen für die nächste Bewertung auszuwählen, wodurch die Anzahl der aufwendigen Versuche reduziert wird.
Validierungsbasierte Auswahl: Da Hyperparameter Komplexität und Anpassung steuern, müssen sie unter Verwendung von Validierungsdaten ausgewählt werden, die vom endgültigen Testsatz getrennt sind, um optimistische Leistungsschätzungen zu vermeiden.

Clinical relevance

Die Wahl der Hyperparameter kann ein Modell von nutzlos zu hochmodern verändern, daher ist eine systematische Abstimmung unerlässlich, und automatisierte Methoden machen sie für aufwendige Modelle handhabbar; eine korrekte Durchführung mit geeigneten Validierungsdaten und einer ehrlichen Berücksichtigung der Suche ist notwendig, um eine Überschätzung der endgültigen Leistung zu vermeiden.

History

Die Gittersuche war lange Zeit der Standard für die Abstimmung, aber Bergstra und Bengio zeigten 2012, dass die Zufallssuche oft effizienter ist. Bayessche Optimierung und Bandit-basierte Methoden wie Successive Halving haben die automatisierte Abstimmung anschließend vorangetrieben, und die Hyperparameter-Optimierung wurde zu einem Kernbestandteil des automatisierten maschinellen Lernens.

Key figures

James Bergstra
Yoshua Bengio
Trevor Hastie

Seminal works

hastie2009
goodfellow2016
bergstra2012

Frequently asked questions

Was ist der Unterschied zwischen einem Parameter und einem Hyperparameter?: Parameter, wie die Gewichte eines Modells, werden aus den Trainingsdaten gelernt. Hyperparameter, wie die Lernrate oder die Regularisierungsstärke, werden vor dem Training festgelegt und steuern, wie das Lernen abläuft; sie werden durch die Suche nach Kandidatenwerten und die Bewertung anhand von Validierungsdaten ausgewählt.
Warum ist die Zufallssuche oft besser als die Gittersuche?: Wenn nur wenige Hyperparameter die Leistung stark beeinflussen, verschwendet die Gittersuche viele Versuche, indem sie die unwichtigen variiert. Die Zufallsstichprobe erkundet die wichtigen Dimensionen bei gleicher Anzahl von Versuchen gründlicher, sodass sie tendenziell schneller gute Einstellungen findet.