Longformer / BigBird
טרנספורמרים לרצפים ארוכים, כגון Longformer (Beltagy, Peters & Cohan, 2020) ו-BigBird (Zaheer et al., 2020), מחליפים את מנגנון הקשב הסטנדרטי בעל סיבוכיות ריבועית O(n²) בדפוסי קשב דלילים (sparse attention) בעלי סיבוכיות לינארית O(n) ביחס לאורך הרצף. הדבר מאפשר למודל יחיד לעבד אלפי טוקנים — מסמכים שלמים, טקסטים משפטיים או רצפים גנומיים — שאינם ניתנים לעיבוד במודל טרנספורמר קונבנציונלי.
קראו את השיטה במלואה
התחברו עם חשבון חינמי כדי לקרוא חלק זה.
Method map
The neighbourhood of related methods — select a node to explore.
מקורות
איך לצטט עמוד זה
ScholarGate. (2026, June 1). Long-Sequence Transformers with Sparse Attention (Longformer / BigBird). ScholarGate. https://scholargate.app/he/deep-learning/longformer-bigbird
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- רשת קשב גרפיתלמידה עמוקה↔ compare
- תערובת מומחיםלמידה עמוקה↔ compare
- יער אקראילמידת מכונה↔ compare
- XGBoostלמידת מכונה↔ compare