Machine learning

Auto-attention multi-têtes

L'auto-attention multi-têtes, introduite par Vaswani et ses collègues en 2017, est le mécanisme qui permet à chaque position d'une séquence de calculer sa relation avec toutes les autres positions en parallèle. C'est le cœur de l'architecture Transformer et le fondement de BERT, GPT et T5.

Ouvrir dans MethodMindBientôtVidéoBientôtDownload slides

Lire la méthode complète

Réservé aux membres

Connectez-vous avec un compte gratuit pour lire cette section.

Se connecter

Method map

The neighbourhood of related methods — select a node to explore.

Auto-attention multi-têtes

Ajustement fin de BERT Ajustement fin de GPT LoRA et PEFT Forêt Aléatoire XGBoost Mécanisme d'attention RNN bidirectionnel Génération augmentée par…Modèle séquence-à-séquen…

Sources

Vaswani, A. et al. (2017). Attention Is All You Need. NeurIPS. link ↗
Devlin, J. et al. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL. link ↗

Comment citer cette page

ScholarGate. (2026, June 1). Multi-Head Self-Attention (Transformer Core). ScholarGate. https://scholargate.app/fr/deep-learning/self-attention-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Ajustement fin de BERTApprentissage profond↔ compare
Ajustement fin de GPTApprentissage profond↔ compare
LoRA et PEFTApprentissage profond↔ compare
Forêt AléatoireApprentissage automatique↔ compare
XGBoostApprentissage automatique↔ compare

Compare side by side →

Référencée par

Mécanisme d'attention RNN bidirectionnel Génération augmentée par récupération (RAG)Modèle séquence-à-séquence (Seq2Seq)

Une erreur sur cette page ? Signalez-la ou proposez une correction →

Lire la méthode complète

Method map

Sources

Comment citer cette page

Méthodes apparentées

Which method?

Référencée par