Machine learning

Multi-Head Self-Attention

Multi-head self-attention, introducerat av Vaswani och kollegor 2017, är mekanismen som låter varje position i en sekvens beräkna sin relation till alla andra positioner parallellt. Det är kärnan i Transformer-arkitekturen och grunden för BERT, GPT och T5.

Öppna i MethodMindSnartVideoSnartLadda ner bildspel

Läs hela metoden

Endast för medlemmar

Logga in med ett kostnadsfritt konto för att läsa avsnittet.

Logga in

Metodkarta

Närområdet av besläktade metoder — välj en nod för att utforska.

Multi-Head Self-Attention

BERT-finjustering Finjustering av GPT LoRA och PEFT Random Forest XGBoost Uppmärksamhetsmekanism Dubbelriktad RNN Retrieval-Augmented Gene…Sekvens-till-sekvens-mod…

Källor

Vaswani, A. et al. (2017). Attention Is All You Need. NeurIPS. link ↗
Devlin, J. et al. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL. link ↗

Så citerar du den här sidan

ScholarGate. (2026, June 1). Multi-Head Self-Attention (Transformer Core). ScholarGate. https://scholargate.app/sv/deep-learning/self-attention-transformer

Vilken metod?

Placera den här metoden bredvid sina närmaste släktingar och läs dem sida vid sida — biblioteket lägger fram böckerna på bordet; valet är ditt.

BERT-finjusteringDjupinlärning↔ jämför
Finjustering av GPTDjupinlärning↔ jämför
LoRA och PEFTDjupinlärning↔ jämför
Random ForestMaskininlärning↔ jämför
XGBoostMaskininlärning↔ jämför

Jämför sida vid sida →

Refereras av

Uppmärksamhetsmekanism Dubbelriktad RNN Retrieval-Augmented Generation (RAG)Sekvens-till-sekvens-modellen (Seq2Seq)

Hittade du ett fel på sidan? Rapportera eller föreslå en rättelse →

Läs hela metoden

Metodkarta

Källor

Så citerar du den här sidan

Närliggande metoder

Vilken metod?

Refereras av