Longformer / BigBird
Các mô hình Transformer cho chuỗi dài như Longformer (Beltagy, Peters & Cohan, 2020) và BigBird (Zaheer et al., 2020) thay thế cơ chế chú ý (attention) có độ phức tạp O(n²) của Transformer tiêu chuẩn bằng các mẫu chú ý thưa (sparse attention) có độ phức tạp tuyến tính O(n) theo độ dài chuỗi. Điều này cho phép một mô hình đơn lẻ có thể xử lý hàng nghìn token — các văn bản đầy đủ, tài liệu pháp lý, hoặc chuỗi gen — mà một Transformer thông thường không thể xử lý được.
Đọc toàn bộ phương pháp
Đăng nhập bằng tài khoản miễn phí để đọc phần này.
Method map
The neighbourhood of related methods — select a node to explore.
Nguồn tài liệu
Cách trích dẫn trang này
ScholarGate. (2026, June 1). Long-Sequence Transformers with Sparse Attention (Longformer / BigBird). ScholarGate. https://scholargate.app/vi/deep-learning/longformer-bigbird
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Mạng Hồi quy Đồ thị (Graph Attention Network - GAT)Học sâu↔ compare
- Mixture of ExpertsHọc sâu↔ compare
- Rừng ngẫu nhiênHọc máy↔ compare
- XGBoostHọc máy↔ compare
Được tham chiếu bởi
Phát hiện lỗi trên trang này? Báo cáo hoặc đề xuất chỉnh sửa →