Quel problème l'attention résout-elle ?

Les modèles encodeur-décodeur antérieurs compressaient une entrée entière en un seul vecteur fixe, ce qui entraînait une perte d'informations pour les longues séquences. L'attention permet au décodeur de consulter tous les états de l'encodeur et de pondérer les plus pertinents à chaque étape de sortie.

Modèles Séquence-à-Séquence et Transformeurs

Architectures neuronales qui transforment une séquence d'entrée en une séquence de sortie — les encodeurs-décodeurs récurrents, l'attention et le transformeur — qui sont à la base de la traduction, de la summarisation et des modèles de langage génératifs modernes.

Trouver un sujet avec PaperMindBientôtFind papers & topics

Tools & resources

Télécharger les diapositives

Learn & explore

VidéoBientôt

Definition

Un modèle séquence-à-séquence est un réseau neuronal qui encode une séquence d'entrée et génère une séquence de sortie, utilisant généralement un mécanisme d'attention pour aligner les deux.

Scope

Couvre les architectures neuronales de modélisation de séquences centrales en PNL actuelle : les réseaux récurrents, y compris les LSTM, le cadre encodeur-décodeur, les mécanismes d'attention et le transformeur. Il aborde la manière dont ces modèles sont entraînés et décodés et pourquoi l'auto-attention du transformeur a permis une mise à l'échelle vers de grands modèles de langage. Les plongements (embeddings) et les applications spécifiques sont traités dans des sujets connexes.

Core questions

Comment le cadre encodeur-décodeur transforme-t-il une séquence en une autre ?
Pourquoi l'attention a-t-elle surmonté le goulot d'étranglement des encodages de taille fixe ?
Que calcule l'auto-attention, et pourquoi le transformeur est-il si évolutif ?
Comment les LSTM et les transformeurs sont-ils entraînés et utilisés pour la génération ?

Key concepts

réseau neuronal récurrent
LSTM
encodeur-décodeur
mécanisme d'attention
auto-attention
transformeur
encodage positionnel
décodage

Key theories

Mémoire à long terme et à court terme: Une architecture récurrente avec des cellules de mémoire à portes qui atténue le problème de la disparition du gradient, permettant l'apprentissage des dépendances à long terme dans les séquences.
Encodeur-décodeur avec attention: Mappage d'une entrée à une séquence de sortie via un encodeur et un décodeur, l'attention permettant au décodeur de se concentrer sur les positions d'entrée pertinentes à chaque étape.
Transformeur à auto-attention: Remplacer la récurrence par l'auto-attention de sorte que chaque jeton (token) s'auto-attende directement à tous les autres, permettant l'entraînement parallèle et la mise à l'échelle qui sous-tend les grands modèles de langage.

History

Les LSTM (1997) ont rendu les réseaux récurrents pratiques pour les longues séquences. L'apprentissage séquence-à-séquence avec attention (2014–2015) a transformé la traduction automatique, et le transformeur de 2017 a remplacé la récurrence par l'auto-attention, permettant les grands modèles génératifs pré-entraînés qui dominent désormais le domaine.

Debates

Récurrence versus attention: Savoir si la récurrence séquentielle ou l'attention entièrement parallèle constitue le meilleur biais inductif pour le langage ; les transformeurs ont largement gagné en termes d'évolutivité, bien que des préoccupations d'efficacité maintiennent des architectures alternatives en vie.

Key figures

Ashish Vaswani
Ilya Sutskever
Sepp Hochreiter
Jürgen Schmidhuber

Seminal works

hochreiter1997
sutskever2014
vaswani2017

Frequently asked questions

Quel problème l'attention résout-elle ?: Les modèles encodeur-décodeur antérieurs compressaient une entrée entière en un seul vecteur fixe, ce qui entraînait une perte d'informations pour les longues séquences. L'attention permet au décodeur de consulter tous les états de l'encodeur et de pondérer les plus pertinents à chaque étape de sortie.