ScholarGate
Assistant

Rétropropagation et Optimisation

La rétropropagation calcule efficacement le gradient de la fonction de perte d'un réseau par rapport à ses poids, et les optimiseurs basés sur le gradient utilisent ce gradient pour entraîner le réseau.

Trouver un sujet avec PaperMindBientôtFind papers & topics
Tools & resources
Télécharger les diapositives
Learn & explore
VidéoBientôt

Definition

La rétropropagation est un algorithme qui calcule le gradient d'une fonction de perte par rapport à chaque poids d'un réseau neuronal en propageant les signaux d'erreur vers l'arrière à travers les couches en utilisant la règle de la chaîne ; l'optimisation met ensuite à jour les poids, généralement avec la descente de gradient stochastique, afin de réduire la perte.

Scope

Ce sujet aborde la manière dont les réseaux profonds sont entraînés : l'algorithme de rétropropagation en tant qu'application de la règle de la chaîne pour calculer les gradients couche par couche, la descente de gradient stochastique et sa forme par mini-lots, les méthodes de momentum et de taux d'apprentissage adaptatif, ainsi que les défis pratiques liés aux gradients évanescents et explosifs, au choix du taux d'apprentissage et à la convergence sur des surfaces de perte non convexes.

Core questions

  • Comment la rétropropagation calcule-t-elle efficacement les gradients ?
  • Pourquoi la descente de gradient stochastique est-elle préférée pour les grands ensembles de données ?
  • Comment le momentum et les méthodes adaptatives accélèrent-ils l'entraînement ?
  • Qu'est-ce qui cause les gradients évanescents ou explosifs et comment sont-ils atténués ?

Key theories

Rétropropagation via la règle de la chaîne
En appliquant la règle de la chaîne de la sortie vers l'arrière, l'algorithme réutilise les résultats intermédiaires pour calculer tous les gradients de poids en un temps proportionnel au passage avant, rendant ainsi l'entraînement de grands réseaux réalisable.
Descente de gradient stochastique
L'estimation du gradient à partir de petits lots aléatoires rend chaque mise à jour peu coûteuse et introduit un bruit utile, permettant l'entraînement sur de très grands ensembles de données et améliorant souvent la généralisation.
Méthodes adaptatives et de momentum
Le momentum accumule les gradients passés pour lisser la descente, et les méthodes adaptatives ajustent la taille du pas par paramètre, accélérant ainsi la convergence sur les surfaces de perte mal conditionnées typiques des réseaux profonds.

Clinical relevance

La rétropropagation avec descente de gradient stochastique est le moteur de pratiquement tout l'apprentissage profond moderne ; comprendre comment les gradients circulent explique à la fois pourquoi la profondeur était historiquement difficile à entraîner et comment les innovations en matière d'activations, d'initialisation et d'optimiseurs ont rendu les réseaux très profonds pratiques.

History

La rétropropagation a été dérivée dans plusieurs contextes, y compris la thèse de Werbos en 1974, et a été mise en lumière par Rumelhart, Hinton et Williams en 1986. La descente de gradient stochastique, puis les optimiseurs à momentum et à taux d'apprentissage adaptatif, sont devenus les procédures d'entraînement standard, et la résolution du problème des gradients évanescents a été essentielle pour l'entraînement des réseaux profonds et récurrents.

Key figures

  • David Rumelhart
  • Geoffrey Hinton
  • Ronald Williams
  • Paul Werbos

Related topics

Seminal works

  • rumelhart1986
  • goodfellow2016
  • bishop2006

Frequently asked questions

Que calcule réellement la rétropropagation ?
Elle calcule le gradient de la perte par rapport à chaque poids, c'est-à-dire dans quelle mesure chaque poids devrait changer pour réduire l'erreur. Elle le fait efficacement en propageant les signaux d'erreur vers l'arrière, de la couche de sortie à la couche d'entrée, en utilisant la règle de la chaîne.
Pourquoi entraîner sur de petits lots plutôt que sur toutes les données en une seule fois ?
Utiliser l'ensemble du jeu de données pour chaque mise à jour est coûteux et inutile. La descente de gradient stochastique par mini-lots estime le gradient à partir d'un petit échantillon aléatoire, rendant chaque étape peu coûteuse, permettant beaucoup plus de mises à jour, et ajoutant un bruit qui peut aider à échapper aux mauvaises solutions.

Methods for this concept

Related concepts