Machine learning

Longformer / BigBird

Các mô hình Transformer cho chuỗi dài như Longformer (Beltagy, Peters & Cohan, 2020) và BigBird (Zaheer et al., 2020) thay thế cơ chế chú ý (attention) có độ phức tạp O(n²) của Transformer tiêu chuẩn bằng các mẫu chú ý thưa (sparse attention) có độ phức tạp tuyến tính O(n) theo độ dài chuỗi. Điều này cho phép một mô hình đơn lẻ có thể xử lý hàng nghìn token — các văn bản đầy đủ, tài liệu pháp lý, hoặc chuỗi gen — mà một Transformer thông thường không thể xử lý được.

Mở trong MethodMindSắp ra mắtVideoSắp ra mắtDownload slides

Đọc toàn bộ phương pháp

Chỉ dành cho thành viên

Đăng nhập bằng tài khoản miễn phí để đọc phần này.

Đăng nhập

Method map

The neighbourhood of related methods — select a node to explore.

Longformer / BigBird

Mạng Hồi quy Đồ thị (Gra…Mixture of Experts Rừng ngẫu nhiên XGBoost Chưng cất tri thức Tìm kiếm Kiến trúc Mạng…Học tương phản hình ảnh

Nguồn tài liệu

Beltagy, I., Peters, M. E. & Cohan, A. (2020). Longformer: The Long-Document Transformer. arXiv. link ↗
Zaheer, M. et al. (2020). Big Bird: Transformers for Longer Sequences. NeurIPS. link ↗

Cách trích dẫn trang này

ScholarGate. (2026, June 1). Long-Sequence Transformers with Sparse Attention (Longformer / BigBird). ScholarGate. https://scholargate.app/vi/deep-learning/longformer-bigbird

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Mạng Hồi quy Đồ thị (Graph Attention Network - GAT)Học sâu↔ compare
Mixture of ExpertsHọc sâu↔ compare
Rừng ngẫu nhiênHọc máy↔ compare
XGBoostHọc máy↔ compare

Compare side by side →

Được tham chiếu bởi

Chưng cất tri thức Tìm kiếm Kiến trúc Mạng Nơ-ron Học tương phản hình ảnh

Phát hiện lỗi trên trang này? Báo cáo hoặc đề xuất chỉnh sửa →