Optimisation des hyperparamètres
L'optimisation des hyperparamètres recherche les paramètres de configuration d'un algorithme d'apprentissage qui produisent la meilleure généralisation, car ceux-ci ne sont pas appris directement à partir des données.
Definition
L'optimisation des hyperparamètres est le processus de sélection des valeurs des paramètres de configuration d'un modèle, ceux définis avant l'entraînement plutôt qu'appris à partir des données, en évaluant les configurations candidates sur des données de validation réservées et en choisissant la configuration qui généralise le mieux.
Scope
Ce sujet couvre les méthodes d'ajustement des paramètres qui régissent un algorithme d'apprentissage, tels que le taux d'apprentissage, la force de régularisation et les choix d'architecture : la recherche par grille, la recherche aléatoire, l'optimisation bayésienne avec des modèles de substitution, et les approches basées sur la division successive (successive-halving) et les bandits. Il aborde pourquoi les hyperparamètres doivent être choisis sur des données de validation et comment le coût de la recherche est géré.
Core questions
- Qu'est-ce qui distingue les hyperparamètres des paramètres de modèle ?
- Comment la recherche par grille et la recherche aléatoire diffèrent-elles en termes d'efficacité ?
- Comment l'optimisation bayésienne utilise-t-elle les évaluations passées pour guider la recherche ?
- Pourquoi les hyperparamètres doivent-ils être ajustés sur des données de validation plutôt que sur des données de test ?
Key theories
- Recherche par grille et recherche aléatoire
- La recherche par grille évalue toutes les combinaisons sur une grille prédéfinie, tandis que la recherche aléatoire échantillonne les configurations au hasard et est souvent plus efficace lorsque seuls quelques hyperparamètres affectent fortement la performance.
- Optimisation bayésienne
- L'optimisation bayésienne ajuste un modèle de substitution probabiliste de la performance en fonction des hyperparamètres et l'utilise pour choisir les configurations prometteuses à évaluer ensuite, réduisant ainsi le nombre d'essais coûteux.
- Sélection basée sur la validation
- Étant donné que les hyperparamètres contrôlent la complexité et l'ajustement, ils doivent être choisis à l'aide de données de validation distinctes de l'ensemble de test final afin d'éviter des estimations de performance optimistes.
Clinical relevance
Les choix d'hyperparamètres peuvent transformer un modèle inutile en un modèle de pointe, de sorte qu'un ajustement systématique est essentiel, et les méthodes automatisées le rendent réalisable pour les modèles coûteux ; le faire correctement, avec des données de validation appropriées et une comptabilité honnête de la recherche, est nécessaire pour éviter de surestimer la performance finale.
History
La recherche par grille a longtemps été la méthode par défaut pour l'ajustement, mais Bergstra et Bengio ont montré en 2012 que la recherche aléatoire est souvent plus efficace. L'optimisation bayésienne et les méthodes basées sur les bandits, telles que la division successive (successive halving), ont ensuite fait progresser l'ajustement automatisé, et l'optimisation des hyperparamètres est devenue un élément central de l'apprentissage automatique automatisé.
Key figures
- James Bergstra
- Yoshua Bengio
- Trevor Hastie
Related topics
Seminal works
- hastie2009
- goodfellow2016
- bergstra2012
Frequently asked questions
- Quelle est la différence entre un paramètre et un hyperparamètre ?
- Les paramètres, tels que les poids d'un modèle, sont appris à partir des données d'entraînement. Les hyperparamètres, tels que le taux d'apprentissage ou la force de régularisation, sont définis avant l'entraînement et contrôlent la manière dont l'apprentissage se déroule ; ils sont choisis en recherchant des valeurs candidates et en les évaluant sur des données de validation.
- Pourquoi la recherche aléatoire est-elle souvent meilleure que la recherche par grille ?
- Lorsque seuls quelques hyperparamètres affectent fortement la performance, la recherche par grille gaspille de nombreux essais en faisant varier ceux qui sont sans importance. L'échantillonnage aléatoire explore plus en profondeur les dimensions importantes pour le même nombre d'essais, de sorte qu'il tend à trouver de bons réglages plus rapidement.