ScholarGate
Assistent

Sequenz-zu-Sequenz-Modelle und Transformatoren

Neuronale Architekturen, die eine Eingabesequenz auf eine Ausgabesequenz abbilden – rekurrente Encoder-Decoder, Attention und der Transformator – die die Grundlage für Übersetzung, Zusammenfassung und moderne generative Sprachmodelle bilden.

Thema finden mit PaperMindDemnächstFind papers & topics
Tools & resources
Folien herunterladen
Learn & explore
VideoDemnächst

Definition

Ein Sequenz-zu-Sequenz-Modell ist ein neuronales Netzwerk, das eine Eingabesequenz kodiert und eine Ausgabesequenz generiert, typischerweise unter Verwendung eines Aufmerksamkeitsmechanismus, um die beiden aufeinander abzustimmen.

Scope

Behandelt die neuronalen Sequenzmodellierungsarchitekturen, die für das aktuelle NLP zentral sind: rekurrente Netzwerke einschließlich LSTMs, das Encoder-Decoder-Framework, Aufmerksamkeitsmechanismen und den Transformator. Es wird erläutert, wie diese Modelle trainiert und dekodiert werden und warum die Selbstaufmerksamkeit des Transformators die Skalierung auf große Sprachmodelle ermöglichte. Embeddings und spezifische Anwendungen werden in verwandten Themen behandelt.

Core questions

  • Wie transformiert das Encoder-Decoder-Framework eine Sequenz in eine andere?
  • Warum überwand Attention den Engpass fester Kodierungen?
  • Was berechnet Selbstaufmerksamkeit, und warum ist der Transformator so skalierbar?
  • Wie werden LSTMs und Transformatoren trainiert und zur Generierung eingesetzt?

Key concepts

  • rekurrentes neuronales Netzwerk
  • LSTM
  • Encoder-Decoder
  • Aufmerksamkeitsmechanismus
  • Selbstaufmerksamkeit
  • Transformator
  • Positionskodierung
  • Dekodierung

Key theories

Long Short-Term Memory
Eine rekurrente Architektur mit Gated-Memory-Zellen, die das Vanishing-Gradient-Problem mildert und das Lernen von Langzeitabhängigkeiten in Sequenzen ermöglicht.
Encoder-Decoder mit Attention
Abbildung einer Eingabe- auf eine Ausgabesequenz über einen Encoder und Decoder, wobei Attention dem Decoder ermöglicht, sich bei jedem Schritt auf relevante Eingabepositionen zu konzentrieren.
Selbstaufmerksamkeits-Transformator
Ersetzt Rekurrenz durch Selbstaufmerksamkeit, sodass jedes Token direkt auf jedes andere achtet, was paralleles Training und die Skalierung hinter großen Sprachmodellen ermöglicht.

History

LSTMs (1997) machten rekurrente Netzwerke für lange Sequenzen praktikabel. Das Sequenz-zu-Sequenz-Lernen mit Attention (2014–2015) revolutionierte die maschinelle Übersetzung, und der Transformator von 2017 ersetzte Rekurrenz durch Selbstaufmerksamkeit, was die großen vortrainierten generativen Modelle ermöglichte, die heute das Feld dominieren.

Debates

Rekurrenz versus Attention
Ob sequentielle Rekurrenz oder vollständig parallele Attention die bessere induktive Verzerrung für Sprache ist; Transformatoren gewannen weitgehend bei der Skalierbarkeit, obwohl Effizienzbedenken alternative Architekturen am Leben erhalten.

Key figures

  • Ashish Vaswani
  • Ilya Sutskever
  • Sepp Hochreiter
  • Jürgen Schmidhuber

Related topics

Seminal works

  • hochreiter1997
  • sutskever2014
  • vaswani2017

Frequently asked questions

Welches Problem löst Attention?
Frühere Encoder-Decoder-Modelle komprimierten eine gesamte Eingabe in einen einzigen festen Vektor, wodurch Informationen für lange Sequenzen verloren gingen. Attention ermöglicht es dem Decoder, bei jedem Ausgabeschritt auf alle Encoder-Zustände zurückzugreifen und die relevantesten zu gewichten.

Methods for this concept

Related concepts