Modèles Séquence-à-Séquence et Transformeurs
Architectures neuronales qui transforment une séquence d'entrée en une séquence de sortie — les encodeurs-décodeurs récurrents, l'attention et le transformeur — qui sont à la base de la traduction, de la summarisation et des modèles de langage génératifs modernes.
Definition
Un modèle séquence-à-séquence est un réseau neuronal qui encode une séquence d'entrée et génère une séquence de sortie, utilisant généralement un mécanisme d'attention pour aligner les deux.
Scope
Couvre les architectures neuronales de modélisation de séquences centrales en PNL actuelle : les réseaux récurrents, y compris les LSTM, le cadre encodeur-décodeur, les mécanismes d'attention et le transformeur. Il aborde la manière dont ces modèles sont entraînés et décodés et pourquoi l'auto-attention du transformeur a permis une mise à l'échelle vers de grands modèles de langage. Les plongements (embeddings) et les applications spécifiques sont traités dans des sujets connexes.
Core questions
- Comment le cadre encodeur-décodeur transforme-t-il une séquence en une autre ?
- Pourquoi l'attention a-t-elle surmonté le goulot d'étranglement des encodages de taille fixe ?
- Que calcule l'auto-attention, et pourquoi le transformeur est-il si évolutif ?
- Comment les LSTM et les transformeurs sont-ils entraînés et utilisés pour la génération ?
Key concepts
- réseau neuronal récurrent
- LSTM
- encodeur-décodeur
- mécanisme d'attention
- auto-attention
- transformeur
- encodage positionnel
- décodage
Key theories
- Mémoire à long terme et à court terme
- Une architecture récurrente avec des cellules de mémoire à portes qui atténue le problème de la disparition du gradient, permettant l'apprentissage des dépendances à long terme dans les séquences.
- Encodeur-décodeur avec attention
- Mappage d'une entrée à une séquence de sortie via un encodeur et un décodeur, l'attention permettant au décodeur de se concentrer sur les positions d'entrée pertinentes à chaque étape.
- Transformeur à auto-attention
- Remplacer la récurrence par l'auto-attention de sorte que chaque jeton (token) s'auto-attende directement à tous les autres, permettant l'entraînement parallèle et la mise à l'échelle qui sous-tend les grands modèles de langage.
History
Les LSTM (1997) ont rendu les réseaux récurrents pratiques pour les longues séquences. L'apprentissage séquence-à-séquence avec attention (2014–2015) a transformé la traduction automatique, et le transformeur de 2017 a remplacé la récurrence par l'auto-attention, permettant les grands modèles génératifs pré-entraînés qui dominent désormais le domaine.
Debates
- Récurrence versus attention
- Savoir si la récurrence séquentielle ou l'attention entièrement parallèle constitue le meilleur biais inductif pour le langage ; les transformeurs ont largement gagné en termes d'évolutivité, bien que des préoccupations d'efficacité maintiennent des architectures alternatives en vie.
Key figures
- Ashish Vaswani
- Ilya Sutskever
- Sepp Hochreiter
- Jürgen Schmidhuber
Related topics
Seminal works
- hochreiter1997
- sutskever2014
- vaswani2017
Frequently asked questions
- Quel problème l'attention résout-elle ?
- Les modèles encodeur-décodeur antérieurs compressaient une entrée entière en un seul vecteur fixe, ce qui entraînait une perte d'informations pour les longues séquences. L'attention permet au décodeur de consulter tous les états de l'encodeur et de pondérer les plus pertinents à chaque étape de sortie.