Was ist der Unterschied zwischen statischen und kontextuellen Embeddings?

Ein statisches Embedding weist einem Wort unabhängig vom Kontext einen festen Vektor zu, sodass 'Bank' eine einzige Repräsentation hat. Ein kontextuelles Embedding erzeugt für jedes Vorkommen einen anderen Vektor, wodurch eine Flussbank von einer Finanzbank unterschieden wird.

Neuronale Sprachmodelle und Wort-Embeddings

Das Lernen dichter Vektordarstellungen von Wörtern und Kontexten aus Rohdaten – von word2vec-Embeddings bis hin zu kontextuellen Repräsentationen wie BERT –, die Bedeutung als Geometrie kodieren.

Thema finden mit PaperMindDemnächstFind papers & topics

Tools & resources

Folien herunterladen

Learn & explore

VideoDemnächst

Definition

Ein Wort-Embedding ist ein dichter, reellwertiger Vektor, der die Bedeutung eines Wortes repräsentiert und so gelernt wird, dass die Verteilungsähnlichkeit in der Vektorraum-Nähe widergespiegelt wird; kontextuelle Embeddings erweitern dies auf Repräsentationen, die vom umgebenden Text abhängen.

Scope

Umfasst verteilte und neuronale Sprachrepräsentationen: die Distributional Hypothesis, statische Wort-Embeddings wie word2vec und GloVe, neuronale Sprachmodelle und kontextuelle Embeddings von vortrainierten Transformatoren wie BERT. Es wird behandelt, wie Repräsentationen trainiert, evaluiert und auf nachgelagerte Aufgaben übertragen werden. Details zur Transformer-Architektur und -Generierung werden in einem verwandten Thema behandelt.

Core questions

Was ist die Distributional Hypothesis und wie operationalisieren Embeddings diese?
Wie lernt word2vec Wortvektoren aus Kookkurrenzen?
Wie unterscheiden sich kontextuelle Embeddings von statischen?
Warum haben Vortraining und Transferlernen die NLP transformiert?

Key concepts

Distributional Hypothesis
Wort-Embedding
word2vec
Skip-Gram
kontextuelles Embedding
Vortraining und Feinabstimmung
Transferlernen
Masked Language Modeling

Key theories

Distributional Hypothesis: Die Vorstellung, dass Wörter, die in ähnlichen Kontexten vorkommen, ähnliche Bedeutungen haben, was allen Embedding-Methoden zugrunde liegt, indem Bedeutung aus Kookkurrenzstatistiken abgeleitet wird.
Kontextuelles Vortraining: Vortraining tiefer bidirektionaler Modelle auf großen unbeschrifteten Textmengen, wie bei BERT, um kontextsensitive Repräsentationen zu erzeugen, die mit geringer Feinabstimmung auf viele nachgelagerte Aufgaben übertragen werden können.

History

Harriss Distributional Hypothesis wurde zunächst durch zählbasierte Vektorraummodelle operationalisiert, dann durch Bengios neuronales Sprachmodell (2003) und Mikolovs effizientes word2vec (2013). Die Einführung kontextueller Modelle wie ELMo und BERT in den Jahren 2018–2019 etablierte das Vortrainings- und Feinabstimmungs-Paradigma als dominierend.

Debates

Was kodieren Embeddings tatsächlich?: Die Frage, ob gelernte Repräsentationen echte semantische und syntaktische Strukturen oder lediglich Kookkurrenzregelmäßigkeiten und Verzerrungen in den Trainingsdaten erfassen, ist eine zentrale Frage für die Interpretierbarkeit.

Key figures

Yoshua Bengio
Tomas Mikolov
Jacob Devlin
Zellig Harris

Seminal works

bengio2003
mikolov2013
devlin2019

Frequently asked questions

Was ist der Unterschied zwischen statischen und kontextuellen Embeddings?: Ein statisches Embedding weist einem Wort unabhängig vom Kontext einen festen Vektor zu, sodass 'Bank' eine einzige Repräsentation hat. Ein kontextuelles Embedding erzeugt für jedes Vorkommen einen anderen Vektor, wodurch eine Flussbank von einer Finanzbank unterschieden wird.