Machine learning

Longformer / BigBird

Trasformatori per sequenze lunghe come Longformer (Beltagy, Peters & Cohan, 2020) e BigBird (Zaheer et al., 2020) sostituiscono l'attenzione O(n²) dello standard Transformer con pattern di attenzione sparsi che scalano linearmente, O(n), con la lunghezza della sequenza. Ciò consente a un singolo modello di attendere migliaia di token — documenti completi, testi legali o sequenze genomiche — che non entrerebbero in un Transformer convenzionale.

Apri in MethodMindIn arrivoVideoIn arrivoDownload slides

Leggi il metodo completo

Riservato ai membri

Accedi con un account gratuito per leggere questa sezione.

Accedi

Method map

The neighbourhood of related methods — select a node to explore.

Longformer / BigBird

Rete di Attenzione su Gr…Mixture of Experts Random Forest XGBoost Distillazione della Cono…Ricerca Architetturale N…Apprendimento visivo con…

Fonti

Beltagy, I., Peters, M. E. & Cohan, A. (2020). Longformer: The Long-Document Transformer. arXiv. link ↗
Zaheer, M. et al. (2020). Big Bird: Transformers for Longer Sequences. NeurIPS. link ↗

Come citare questa pagina

ScholarGate. (2026, June 1). Long-Sequence Transformers with Sparse Attention (Longformer / BigBird). ScholarGate. https://scholargate.app/it/deep-learning/longformer-bigbird

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Rete di Attenzione su GrafoApprendimento profondo↔ compare
Mixture of ExpertsApprendimento profondo↔ compare
Random ForestApprendimento automatico↔ compare
XGBoostApprendimento automatico↔ compare

Compare side by side →

Citato da

Distillazione della Conoscenza Ricerca Architetturale Neurale Apprendimento visivo contrastivo

Hai notato un problema in questa pagina? Segnalalo o proponi una correzione →