Deep Learning
Deep Learning trainiert neuronale Netze mit vielen Schichten, um hierarchische Repräsentationen von Daten zu lernen, wodurch es in den Bereichen Bildverarbeitung, Sprachverarbeitung und Sprachmodellierung hochmoderne Ergebnisse erzielt.
Definition
Deep Learning ist der Zweig des maschinellen Lernens, der neuronale Netze mit mehreren Schichten nichtlinearer Verarbeitung verwendet, um Repräsentationen von Daten auf zunehmend höheren Abstraktionsebenen zu lernen, wobei die Parameter End-to-End durch Gradientenabstieg auf einer Verlustfunktion angepasst werden.
Scope
Dieser Bereich umfasst mehrschichtige neuronale Netze und die Techniken, die deren Skalierbarkeit ermöglichen: Netzwerkarchitekturen von Feedforward- über Convolutional- bis hin zu rekurrenten Netzen, den Backpropagation-Algorithmus und gradientenbasierte Optimierung, Regularisierungsmethoden wie Dropout sowie tiefe generative Modelle. Es wird behandelt, warum Tiefe das Lernen zusammengesetzter Merkmale ermöglicht und welche Herausforderungen beim Training sehr tiefer Modelle auftreten.
Sub-topics
Core questions
- Warum ermöglichen viele Schichten das Lernen hierarchischer Merkmale?
- Wie wird das gradientenbasierte Training für tiefe Netze funktionsfähig gemacht?
- Welche Architekturen eignen sich für Bilder, Sequenzen und andere Datentypen?
- Wie beeinflussen Regularisierungs- und Optimierungsentscheidungen die Generalisierung?
Key theories
- Hierarchisches Repräsentationslernen
- Das Stapeln von Schichten ermöglicht es einem Netzwerk, einfache Merkmale zu zunehmend abstrakteren zusammenzusetzen, sodass frühe Schichten Kanten oder Geräusche und spätere Schichten Objekte oder Wörter erkennen, die automatisch aus Daten gelernt werden.
- End-to-End-Training durch Backpropagation
- Das gesamte Netzwerk wird gemeinsam optimiert, indem Fehlergradienten rückwärts durch seine Schichten propagiert werden, wodurch Merkmalsextraktion und Vorhersage gemeinsam gelernt werden können, anstatt manuell entworfen zu werden.
- Tiefe und expressive Effizienz
- Tiefe Netzwerke können bestimmte Funktionen weitaus kompakter darstellen als flache, was zusammen mit großen Datensätzen und Rechenleistung ihren empirischen Erfolg untermauert.
Clinical relevance
Deep Learning hat Durchbrüche in der Bild- und Spracherkennung, der maschinellen Übersetzung und bei großen Sprachmodellen vorangetrieben und bildet die Grundlage eines Großteils der zeitgenössischen künstlichen Intelligenz; seine Abhängigkeit von großen Datensätzen und erheblichem Rechenaufwand sowie die Opazität der resultierenden Modelle sind zentrale praktische und ethische Überlegungen bei seiner Anwendung.
History
Neuronale Netze reichen bis zum Perzeptron und zur Backpropagation zurück, die 1986 populär wurde, aber tiefe Netze waren bis Mitte der 2000er Jahre schwer zu trainieren. Fortschritte bei der Initialisierung, Aktivierungsfunktionen, großen gelabelten Datensätzen und der Berechnung durch Grafikprozessoren ermöglichten die Deep-Learning-Revolution ab etwa 2012 und gestalteten die Computer Vision, Sprach- und natürliche Sprachverarbeitung neu.
Debates
- Skalierung versus neue Ideen
- Ein Großteil des jüngsten Fortschritts resultiert aus dem Training größerer Modelle mit mehr Daten und Rechenleistung, was eine Debatte darüber ausgelöst hat, wie weit die Skalierung allein gehen kann im Vergleich zum Bedarf an neuen architektonischen oder algorithmischen Ideen.
Key figures
- Geoffrey Hinton
- Yann LeCun
- Yoshua Bengio
- Juergen Schmidhuber
Related topics
Seminal works
- goodfellow2016
- lecun2015
- bengio2013
Frequently asked questions
- Was macht das Lernen „tief“?
- Die Tiefe bezieht sich auf die Anzahl der aufeinanderfolgenden Schichten nichtlinearer Transformation zwischen Eingabe und Ausgabe. Jede Schicht baut auf den Merkmalen der vorherigen auf, sodass ein tiefes Netzwerk eine Hierarchie von Repräsentationen lernt und nicht eine einzelne direkte Abbildung.
- Warum hat Deep Learning erst kürzlich an Bedeutung gewonnen?
- Die Kernideen existierten seit Jahrzehnten, aber das Training tiefer Netze erforderte große gelabelte Datensätze, schnelle parallele Hardware wie Grafikprozessoren und Techniken wie bessere Initialisierung und Aktivierungsfunktionen. Diese Faktoren kamen um 2012 zusammen und ermöglichten dramatische Fortschritte bei Wahrnehmungsaufgaben.