Longformer / BigBird
Transformery pro dlouhé sekvence, jako jsou Longformer (Beltagy, Peters & Cohan, 2020) a BigBird (Zaheer et al., 2020), nahrazují standardní pozornost Transformeru s časovou složitostí O(n²) vzorci řídké pozornosti, které se škálují lineárně, O(n), s délkou sekvence. To umožňuje jedinému modelu zpracovávat tisíce tokenů – celé dokumenty, právní texty nebo genomické sekvence – které by se do konvenčního Transformeru nevešly.
Přečíst celou metodu
Pro přečtení této sekce se přihlaste s bezplatným účtem.
Method map
The neighbourhood of related methods — select a node to explore.
Zdroje
Jak citovat tuto stránku
ScholarGate. (2026, June 1). Long-Sequence Transformers with Sparse Attention (Longformer / BigBird). ScholarGate. https://scholargate.app/cs/deep-learning/longformer-bigbird
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Grafová pozornostní síťHluboké učení↔ compare
- Směs expertůHluboké učení↔ compare
- Random ForestStrojové učení↔ compare
- XGBoostStrojové učení↔ compare
Odkazuje sem
Našli jste na této stránce chybu? Nahlaste ji nebo navrhněte opravu →