Welches Problem löst Attention?

Frühere Encoder-Decoder-Modelle komprimierten eine gesamte Eingabe in einen einzigen festen Vektor, wodurch Informationen für lange Sequenzen verloren gingen. Attention ermöglicht es dem Decoder, bei jedem Ausgabeschritt auf alle Encoder-Zustände zurückzugreifen und die relevantesten zu gewichten.

Sequenz-zu-Sequenz-Modelle und Transformatoren

Neuronale Architekturen, die eine Eingabesequenz auf eine Ausgabesequenz abbilden – rekurrente Encoder-Decoder, Attention und der Transformator – die die Grundlage für Übersetzung, Zusammenfassung und moderne generative Sprachmodelle bilden.

Thema finden mit PaperMindDemnächstFind papers & topics

Tools & resources

Folien herunterladen

Learn & explore

VideoDemnächst

Definition

Ein Sequenz-zu-Sequenz-Modell ist ein neuronales Netzwerk, das eine Eingabesequenz kodiert und eine Ausgabesequenz generiert, typischerweise unter Verwendung eines Aufmerksamkeitsmechanismus, um die beiden aufeinander abzustimmen.

Scope

Behandelt die neuronalen Sequenzmodellierungsarchitekturen, die für das aktuelle NLP zentral sind: rekurrente Netzwerke einschließlich LSTMs, das Encoder-Decoder-Framework, Aufmerksamkeitsmechanismen und den Transformator. Es wird erläutert, wie diese Modelle trainiert und dekodiert werden und warum die Selbstaufmerksamkeit des Transformators die Skalierung auf große Sprachmodelle ermöglichte. Embeddings und spezifische Anwendungen werden in verwandten Themen behandelt.

Core questions

Wie transformiert das Encoder-Decoder-Framework eine Sequenz in eine andere?
Warum überwand Attention den Engpass fester Kodierungen?
Was berechnet Selbstaufmerksamkeit, und warum ist der Transformator so skalierbar?
Wie werden LSTMs und Transformatoren trainiert und zur Generierung eingesetzt?

Key concepts

rekurrentes neuronales Netzwerk
LSTM
Encoder-Decoder
Aufmerksamkeitsmechanismus
Selbstaufmerksamkeit
Transformator
Positionskodierung
Dekodierung

Key theories

Long Short-Term Memory: Eine rekurrente Architektur mit Gated-Memory-Zellen, die das Vanishing-Gradient-Problem mildert und das Lernen von Langzeitabhängigkeiten in Sequenzen ermöglicht.
Encoder-Decoder mit Attention: Abbildung einer Eingabe- auf eine Ausgabesequenz über einen Encoder und Decoder, wobei Attention dem Decoder ermöglicht, sich bei jedem Schritt auf relevante Eingabepositionen zu konzentrieren.
Selbstaufmerksamkeits-Transformator: Ersetzt Rekurrenz durch Selbstaufmerksamkeit, sodass jedes Token direkt auf jedes andere achtet, was paralleles Training und die Skalierung hinter großen Sprachmodellen ermöglicht.

History

LSTMs (1997) machten rekurrente Netzwerke für lange Sequenzen praktikabel. Das Sequenz-zu-Sequenz-Lernen mit Attention (2014–2015) revolutionierte die maschinelle Übersetzung, und der Transformator von 2017 ersetzte Rekurrenz durch Selbstaufmerksamkeit, was die großen vortrainierten generativen Modelle ermöglichte, die heute das Feld dominieren.

Debates

Rekurrenz versus Attention: Ob sequentielle Rekurrenz oder vollständig parallele Attention die bessere induktive Verzerrung für Sprache ist; Transformatoren gewannen weitgehend bei der Skalierbarkeit, obwohl Effizienzbedenken alternative Architekturen am Leben erhalten.

Key figures

Ashish Vaswani
Ilya Sutskever
Sepp Hochreiter
Jürgen Schmidhuber

Seminal works

hochreiter1997
sutskever2014
vaswani2017

Frequently asked questions

Welches Problem löst Attention?: Frühere Encoder-Decoder-Modelle komprimierten eine gesamte Eingabe in einen einzigen festen Vektor, wodurch Informationen für lange Sequenzen verloren gingen. Attention ermöglicht es dem Decoder, bei jedem Ausgabeschritt auf alle Encoder-Zustände zurückzugreifen und die relevantesten zu gewichten.