Multi-Head Self-Attention
Multi-head self-attention, yang diperkenalkan oleh Vaswani dan kolega pada tahun 2017, adalah mekanisme yang memungkinkan setiap posisi dalam sebuah urutan untuk menghitung hubungannya dengan semua posisi lain secara paralel. Ini adalah inti dari arsitektur Transformer dan fondasi di balik BERT, GPT, dan T5.
Baca metode selengkapnya
Masuk dengan akun gratis untuk membaca bagian ini.
Method map
The neighbourhood of related methods — select a node to explore.
Sumber
Cara menyitasi halaman ini
ScholarGate. (2026, June 1). Multi-Head Self-Attention (Transformer Core). ScholarGate. https://scholargate.app/id/deep-learning/self-attention-transformer
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Fine-Tuning BERTPembelajaran Mendalam↔ compare
- Fine-Tuning GPTPembelajaran Mendalam↔ compare
- LoRA dan PEFTPembelajaran Mendalam↔ compare
- Random ForestPembelajaran Mesin↔ compare
- XGBoostPembelajaran Mesin↔ compare
Dirujuk oleh
Menemukan masalah di halaman ini? Laporkan atau usulkan perbaikan →