Qu'est-ce qu'une fonction d'activation et pourquoi est-elle nécessaire ?

Une fonction d'activation applique une transformation non linéaire à la somme pondérée des entrées d'un neurone. Sans elle, l'empilement de couches ne produirait qu'une autre fonction linéaire ; c'est donc la non-linéarité qui permet aux réseaux profonds de représenter des relations complexes et non linéaires.

Si une seule couche large peut approximer n'importe quelle fonction, pourquoi utiliser des réseaux profonds ?

La propriété d'approximation universelle indique qu'un réseau peu profond peut en principe approximer n'importe quelle fonction, mais il pourrait nécessiter un nombre de neurones irréalisable. Les réseaux profonds représentent souvent les mêmes fonctions de manière beaucoup plus compacte et apprennent des caractéristiques hiérarchiques utiles, c'est pourquoi la profondeur est préférée en pratique.

Architectures de Réseaux Neuronaux

Les architectures de réseaux neuronaux spécifient la manière dont les neurones artificiels sont connectés en couches, définissant ainsi la famille de fonctions qu'un réseau peut représenter.

Trouver un sujet avec PaperMindBientôtFind papers & topics

Tools & resources

Télécharger les diapositives

Learn & explore

VidéoBientôt

Definition

Une architecture de réseau neuronal est l'agencement de neurones artificiels en couches connectées, où chaque neurone calcule une fonction non linéaire d'une somme pondérée de ses entrées ; l'architecture détermine la capacité du réseau et les biais inductifs qu'il apporte à un problème d'apprentissage.

Scope

Ce sujet aborde les éléments constitutifs et les structures des réseaux neuronaux : le neurone artificiel avec ses entrées pondérées et son activation non linéaire, les couches feedforward entièrement connectées et le perceptron multicouche, les fonctions d'activation telles que la sigmoïde et les unités linéaires rectifiées (ReLU), ainsi que la manière dont la profondeur, la largeur et la connectivité façonnent ce qu'un réseau peut apprendre. Il introduit la propriété d'approximation universelle et le rôle du choix de l'architecture.

Core questions

Comment un neurone artificiel calcule-t-il sa sortie ?
Que peut représenter un réseau multicouche qu'une seule couche ne peut pas ?
Comment les fonctions d'activation affectent-elles l'apprentissage ?
Comment la profondeur et la largeur équilibrent-elles la capacité et la capacité d'entraînement ?

Key theories

Approximation universelle: Un réseau feedforward (à propagation avant) doté d'une seule couche cachée suffisamment large peut approximer toute fonction continue sur un domaine borné, établissant ainsi les réseaux neuronaux comme des approximateurs de fonctions flexibles.
Fonctions d'activation et non-linéarité: Les activations non linéaires confèrent leur puissance aux réseaux multicouches ; les unités linéaires rectifiées en particulier facilitent le flux de gradient et sont devenues le choix par défaut pour les réseaux profonds.
La profondeur comme composition: L'ajout de couches compose des transformations de sorte que le réseau construit des caractéristiques de plus en plus abstraites, représentant souvent des fonctions complexes plus efficacement qu'une seule couche large.

Clinical relevance

Le choix de l'architecture constitue la principale méthode pour intégrer des connaissances préalables sur un problème dans un modèle profond, allant des réseaux entièrement connectés pour des données génériques aux structures spécialisées pour les images et les séquences ; la compréhension du neurone artificiel et de la propriété d'approximation universelle clarifie à la fois la puissance et les limites des réseaux neuronaux.

History

Le neurone artificiel trouve ses origines chez McCulloch et Pitts, ainsi que dans le perceptron de Rosenblatt. La critique des réseaux monocouches par Minsky et Papert a ralenti le domaine jusqu'à ce que les réseaux multicouches et la rétropropagation le relancent, et l'ère de l'apprentissage profond a introduit des architectures de dizaines ou de centaines de couches construites à partir d'unités linéaires rectifiées et d'autres composants.

Key figures

Frank Rosenblatt
Geoffrey Hinton
Yann LeCun

Seminal works

goodfellow2016
bishop2006
lecun2015

Frequently asked questions

Qu'est-ce qu'une fonction d'activation et pourquoi est-elle nécessaire ?: Une fonction d'activation applique une transformation non linéaire à la somme pondérée des entrées d'un neurone. Sans elle, l'empilement de couches ne produirait qu'une autre fonction linéaire ; c'est donc la non-linéarité qui permet aux réseaux profonds de représenter des relations complexes et non linéaires.
Si une seule couche large peut approximer n'importe quelle fonction, pourquoi utiliser des réseaux profonds ?: La propriété d'approximation universelle indique qu'un réseau peu profond peut en principe approximer n'importe quelle fonction, mais il pourrait nécessiter un nombre de neurones irréalisable. Les réseaux profonds représentent souvent les mêmes fonctions de manière beaucoup plus compacte et apprennent des caractéristiques hiérarchiques utiles, c'est pourquoi la profondeur est préférée en pratique.