Architekturen neuronaler Netze
Architekturen neuronaler Netze legen fest, wie künstliche Neuronen in Schichten verbunden sind, wodurch die Familie von Funktionen definiert wird, die ein Netzwerk darstellen kann.
Definition
Eine neuronale Netzwerkarchitektur ist die Anordnung künstlicher Neuronen in verbundenen Schichten, wobei jedes Neuron eine nichtlineare Funktion einer gewichteten Summe seiner Eingaben berechnet; die Architektur bestimmt die Kapazität des Netzwerks und die induktiven Verzerrungen, die es in ein Lernproblem einbringt.
Scope
Dieses Thema behandelt die Bausteine und Strukturen neuronaler Netze: das künstliche Neuron mit gewichteten Eingaben und einer nichtlinearen Aktivierung, vollständig verbundene Feedforward-Schichten und das Multilayer-Perzeptron, Aktivierungsfunktionen wie Sigmoid- und rektifizierte lineare Einheiten sowie die Art und Weise, wie Tiefe, Breite und Konnektivität die Lernfähigkeit eines Netzwerks prägen. Es führt die universelle Approximationsfähigkeit und die Rolle der Architekturauswahl ein.
Core questions
- Wie berechnet ein künstliches Neuron seine Ausgabe?
- Was kann ein mehrschichtiges Netzwerk darstellen, was eine einzelne Schicht nicht kann?
- Wie beeinflussen Aktivierungsfunktionen das Lernen?
- Wie wirken sich Tiefe und Breite auf die Kapazität im Verhältnis zur Trainierbarkeit aus?
Key theories
- Universelle Approximation
- Ein Feedforward-Netzwerk mit einer einzigen ausreichend breiten verborgenen Schicht kann jede kontinuierliche Funktion auf einem begrenzten Definitionsbereich approximieren, wodurch neuronale Netze als flexible Funktionsapproximatoren etabliert werden.
- Aktivierungsfunktionen und Nichtlinearität
- Nichtlineare Aktivierungen verleihen mehrschichtigen Netzwerken ihre Leistungsfähigkeit; rektifizierte lineare Einheiten erleichtern insbesondere den Gradientenfluss und sind zur Standardwahl für tiefe Netzwerke geworden.
- Tiefe als Komposition
- Das Hinzufügen von Schichten komponiert Transformationen, sodass das Netzwerk zunehmend abstrakte Merkmale aufbaut, oft komplexere Funktionen effizienter darstellt als eine einzelne breite Schicht.
Clinical relevance
Die Wahl der Architektur ist die primäre Methode, um Vorwissen über ein Problem in ein tiefes Modell zu integrieren, von vollständig verbundenen Netzwerken für generische Daten bis hin zu spezialisierten Strukturen für Bilder und Sequenzen; das Verständnis des künstlichen Neurons und der universellen Approximationsfähigkeit verdeutlicht sowohl die Leistungsfähigkeit als auch die Grenzen neuronaler Netze.
History
Das künstliche Neuron geht auf McCulloch und Pitts sowie auf Rosenblatts Perzeptron zurück. Die Kritik von Minsky und Papert an einschichtigen Netzwerken verlangsamte das Feld, bis mehrschichtige Netzwerke und Backpropagation es wiederbelebten, und die Ära des Deep Learning brachte Architekturen mit Dutzenden oder Hunderten von Schichten hervor, die aus rektifizierten linearen Einheiten und anderen Komponenten aufgebaut sind.
Key figures
- Frank Rosenblatt
- Geoffrey Hinton
- Yann LeCun
Related topics
Seminal works
- goodfellow2016
- bishop2006
- lecun2015
Frequently asked questions
- Was ist eine Aktivierungsfunktion und warum wird sie benötigt?
- Eine Aktivierungsfunktion wendet eine nichtlineare Transformation auf die gewichtete Eingabesumme eines Neurons an. Ohne sie würde das Stapeln von Schichten nur eine weitere lineare Funktion erzeugen, sodass die Nichtlinearität es tiefen Netzwerken ermöglicht, komplexe, nichtlineare Beziehungen darzustellen.
- Wenn eine breite Schicht jede Funktion approximieren kann, warum sollte man dann in die Tiefe gehen?
- Die universelle Approximation besagt, dass ein flaches Netzwerk prinzipiell jede Funktion anpassen kann, aber es benötigt möglicherweise unpraktisch viele Neuronen. Tiefe Netzwerke stellen dieselben Funktionen oft wesentlich kompakter dar und lernen nützliche hierarchische Merkmale, weshalb Tiefe in der Praxis bevorzugt wird.