Explainable Vision Transformer
Explainable Vision Transformer kết hợp hiệu suất nhận dạng hình ảnh mạnh mẽ của Vision Transformers (ViT) với các kỹ thuật quy kết — như lan truyền độ liên quan (relevance propagation), attention rollout, hoặc attention có trọng số gradient (gradient-weighted attention) — làm nổi bật các vùng hình ảnh nào thúc đẩy mỗi dự đoán. Phương pháp này cho phép các nhà nghiên cứu và người thực hành kiểm tra các quyết định của mô hình và đáp ứng các yêu cầu về tính minh bạch mà không làm giảm độ chính xác.
Đọc toàn bộ phương pháp
Đăng nhập bằng tài khoản miễn phí để đọc phần này.
Method map
The neighbourhood of related methods — select a node to explore.
Nguồn tài liệu
- Chefer, H., Gur, S., & Wolf, L. (2021). Transformer interpretability beyond attention visualization. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 782–791. DOI: 10.1109/CVPR46437.2021.00084 ↗
- Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., … Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. In International Conference on Learning Representations (ICLR). link ↗
Cách trích dẫn trang này
ScholarGate. (2026, June 3). Explainable Vision Transformer (XViT / ViT with Post-hoc Attribution). ScholarGate. https://scholargate.app/vi/deep-learning/explainable-vision-transformer
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Phân loại ảnhHọc sâu↔ compare
- Transformer Thị giác Đa phương thứcHọc sâu↔ compare
- Vision Transformer tự giám sátHọc sâu↔ compare
- Phân đoạn ngữ nghĩaHọc sâu↔ compare
- Transformer Thị giácHọc sâu↔ compare
Được tham chiếu bởi
Phát hiện lỗi trên trang này? Báo cáo hoặc đề xuất chỉnh sửa →