Quelle est la différence entre les plongements statiques et contextuels ?

Un plongement statique attribue à un mot un vecteur fixe unique, quel que soit le contexte ; ainsi, 'bank' (rive/banque) a une seule représentation. Un plongement contextuel produit un vecteur différent pour chaque occurrence, distinguant une rive de rivière d'une banque financière.

Modèles de langage neuronaux et plongements lexicaux

Apprentissage de représentations vectorielles denses de mots et de contextes à partir de texte brut — des plongements word2vec aux représentations contextuelles comme BERT — qui encodent le sens sous forme géométrique.

Trouver un sujet avec PaperMindBientôtFind papers & topics

Tools & resources

Télécharger les diapositives

Learn & explore

VidéoBientôt

Definition

Un plongement lexical est un vecteur dense à valeurs réelles représentant le sens d'un mot, appris de manière à ce que la similarité distributionnelle se reflète dans la proximité de l'espace vectoriel ; les plongements contextuels étendent cela à des représentations qui dépendent du texte environnant.

Scope

Couvre les représentations distribuées et neuronales du langage : l'hypothèse distributionnelle, les plongements lexicaux statiques tels que word2vec et GloVe, les modèles de langage neuronaux, et les plongements contextuels issus de transformeurs pré-entraînés comme BERT. Il aborde la manière dont les représentations sont entraînées, évaluées et transférées vers des tâches en aval. Les détails de l'architecture des transformeurs et la génération sont traités dans un sujet connexe.

Core questions

Qu'est-ce que l'hypothèse distributionnelle et comment les plongements la rendent-ils opérationnelle ?
Comment word2vec apprend-il les vecteurs de mots à partir de la cooccurrence ?
En quoi les plongements contextuels diffèrent-ils des plongements statiques ?
Pourquoi le pré-entraînement et l'apprentissage par transfert ont-ils transformé le TALN (Traitement Automatique du Langage Naturel) ?

Key concepts

hypothèse distributionnelle
plongement lexical
word2vec
skip-gram
plongement contextuel
pré-entraînement et ajustement fin
apprentissage par transfert
modélisation de langage masqué

Key theories

Hypothèse distributionnelle: L'idée que les mots apparaissant dans des contextes similaires ont des significations similaires, ce qui sous-tend toutes les méthodes de plongement en dérivant le sens des statistiques de cooccurrence.
Pré-entraînement contextuel: Pré-entraînement de modèles bidirectionnels profonds sur de grands corpus de texte non étiquetés, comme dans BERT, pour produire des représentations sensibles au contexte qui se transfèrent à de nombreuses tâches en aval avec peu d'ajustement fin.

History

L'hypothèse distributionnelle de Harris a été opérationnalisée d'abord par des modèles d'espace vectoriel basés sur le comptage, puis par le modèle de langage neuronal de Bengio (2003) et le word2vec efficace de Mikolov (2013). L'arrivée en 2018–2019 de modèles contextuels tels que ELMo et BERT a fait du pré-entraînement et de l'ajustement fin (fine-tuning) le paradigme dominant.

Debates

Que codent réellement les plongements ?: La question de savoir si les représentations apprises capturent une véritable structure sémantique et syntaxique ou simplement des régularités de cooccurrence et des biais présents dans les données d'entraînement, une question centrale pour l'interprétabilité.

Key figures

Yoshua Bengio
Tomas Mikolov
Jacob Devlin
Zellig Harris

Seminal works

bengio2003
mikolov2013
devlin2019

Frequently asked questions

Quelle est la différence entre les plongements statiques et contextuels ?: Un plongement statique attribue à un mot un vecteur fixe unique, quel que soit le contexte ; ainsi, 'bank' (rive/banque) a une seule représentation. Un plongement contextuel produit un vecteur différent pour chaque occurrence, distinguant une rive de rivière d'une banque financière.