Auto-attention multi-têtes
L'auto-attention multi-têtes, introduite par Vaswani et ses collègues en 2017, est le mécanisme qui permet à chaque position d'une séquence de calculer sa relation avec toutes les autres positions en parallèle. C'est le cœur de l'architecture Transformer et le fondement de BERT, GPT et T5.
Lire la méthode complète
Connectez-vous avec un compte gratuit pour lire cette section.
Method map
The neighbourhood of related methods — select a node to explore.
Sources
Comment citer cette page
ScholarGate. (2026, June 1). Multi-Head Self-Attention (Transformer Core). ScholarGate. https://scholargate.app/fr/deep-learning/self-attention-transformer
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Ajustement fin de BERTApprentissage profond↔ compare
- Ajustement fin de GPTApprentissage profond↔ compare
- LoRA et PEFTApprentissage profond↔ compare
- Forêt AléatoireApprentissage automatique↔ compare
- XGBoostApprentissage automatique↔ compare
Référencée par
Une erreur sur cette page ? Signalez-la ou proposez une correction →