Neuronale Sprachmodelle und Wort-Embeddings
Das Lernen dichter Vektordarstellungen von Wörtern und Kontexten aus Rohdaten – von word2vec-Embeddings bis hin zu kontextuellen Repräsentationen wie BERT –, die Bedeutung als Geometrie kodieren.
Definition
Ein Wort-Embedding ist ein dichter, reellwertiger Vektor, der die Bedeutung eines Wortes repräsentiert und so gelernt wird, dass die Verteilungsähnlichkeit in der Vektorraum-Nähe widergespiegelt wird; kontextuelle Embeddings erweitern dies auf Repräsentationen, die vom umgebenden Text abhängen.
Scope
Umfasst verteilte und neuronale Sprachrepräsentationen: die Distributional Hypothesis, statische Wort-Embeddings wie word2vec und GloVe, neuronale Sprachmodelle und kontextuelle Embeddings von vortrainierten Transformatoren wie BERT. Es wird behandelt, wie Repräsentationen trainiert, evaluiert und auf nachgelagerte Aufgaben übertragen werden. Details zur Transformer-Architektur und -Generierung werden in einem verwandten Thema behandelt.
Core questions
- Was ist die Distributional Hypothesis und wie operationalisieren Embeddings diese?
- Wie lernt word2vec Wortvektoren aus Kookkurrenzen?
- Wie unterscheiden sich kontextuelle Embeddings von statischen?
- Warum haben Vortraining und Transferlernen die NLP transformiert?
Key concepts
- Distributional Hypothesis
- Wort-Embedding
- word2vec
- Skip-Gram
- kontextuelles Embedding
- Vortraining und Feinabstimmung
- Transferlernen
- Masked Language Modeling
Key theories
- Distributional Hypothesis
- Die Vorstellung, dass Wörter, die in ähnlichen Kontexten vorkommen, ähnliche Bedeutungen haben, was allen Embedding-Methoden zugrunde liegt, indem Bedeutung aus Kookkurrenzstatistiken abgeleitet wird.
- Kontextuelles Vortraining
- Vortraining tiefer bidirektionaler Modelle auf großen unbeschrifteten Textmengen, wie bei BERT, um kontextsensitive Repräsentationen zu erzeugen, die mit geringer Feinabstimmung auf viele nachgelagerte Aufgaben übertragen werden können.
History
Harriss Distributional Hypothesis wurde zunächst durch zählbasierte Vektorraummodelle operationalisiert, dann durch Bengios neuronales Sprachmodell (2003) und Mikolovs effizientes word2vec (2013). Die Einführung kontextueller Modelle wie ELMo und BERT in den Jahren 2018–2019 etablierte das Vortrainings- und Feinabstimmungs-Paradigma als dominierend.
Debates
- Was kodieren Embeddings tatsächlich?
- Die Frage, ob gelernte Repräsentationen echte semantische und syntaktische Strukturen oder lediglich Kookkurrenzregelmäßigkeiten und Verzerrungen in den Trainingsdaten erfassen, ist eine zentrale Frage für die Interpretierbarkeit.
Key figures
- Yoshua Bengio
- Tomas Mikolov
- Jacob Devlin
- Zellig Harris
Related topics
Seminal works
- bengio2003
- mikolov2013
- devlin2019
Frequently asked questions
- Was ist der Unterschied zwischen statischen und kontextuellen Embeddings?
- Ein statisches Embedding weist einem Wort unabhängig vom Kontext einen festen Vektor zu, sodass 'Bank' eine einzige Repräsentation hat. Ein kontextuelles Embedding erzeugt für jedes Vorkommen einen anderen Vektor, wodurch eine Flussbank von einer Finanzbank unterschieden wird.