ScholarGate
Assistent
Machine learning

Multi-Head Self-Attention

Multi-head self-attention, introducerat av Vaswani och kollegor 2017, är mekanismen som låter varje position i en sekvens beräkna sin relation till alla andra positioner parallellt. Det är kärnan i Transformer-arkitekturen och grunden för BERT, GPT och T5.

Öppna i MethodMindSnartVideoSnartLadda ner bildspel

Läs hela metoden

Endast för medlemmar

Logga in med ett kostnadsfritt konto för att läsa avsnittet.

Logga in

Metodkarta

Närområdet av besläktade metoder — välj en nod för att utforska.

Källor

  1. Vaswani, A. et al. (2017). Attention Is All You Need. NeurIPS. link
  2. Devlin, J. et al. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL. link

Så citerar du den här sidan

ScholarGate. (2026, June 1). Multi-Head Self-Attention (Transformer Core). ScholarGate. https://scholargate.app/sv/deep-learning/self-attention-transformer

Vilken metod?

Placera den här metoden bredvid sina närmaste släktingar och läs dem sida vid sida — biblioteket lägger fram böckerna på bordet; valet är ditt.

Jämför sida vid sida

Refereras av

ScholarGateSelf-Attention (Multi-Head Self-Attention (Transformer Core)). Hämtad 2026-06-15 från https://scholargate.app/sv/deep-learning/self-attention-transformer · Datamängd: https://doi.org/10.5281/zenodo.20539026