Machine learning
Multi-Head Self-Attention
Multi-head self-attention, introduceret af Vaswani og kolleger i 2017, er den mekanisme, der lader hver position i en sekvens beregne sin relation til alle andre positioner parallelt. Den udgør kernen i Transformer-arkitekturen og fundamentet for BERT, GPT og T5.
Læs hele metoden
Kun for medlemmer
Log indLog ind med en gratis konto for at læse dette afsnit.
Method map
The neighbourhood of related methods — select a node to explore.
Kilder
Sådan citerer du denne side
ScholarGate. (2026, June 1). Multi-Head Self-Attention (Transformer Core). ScholarGate. https://scholargate.app/da/deep-learning/self-attention-transformer
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- BERT FinjusteringDyb læring↔ compare
- GPT FinjusteringDyb læring↔ compare
- LoRA og PEFTDyb læring↔ compare
- Random ForestMaskinlæring↔ compare
- XGBoostMaskinlæring↔ compare
Refereret af
Har du fundet en fejl på denne side? Indberet den eller foreslå en rettelse →