Transformer Thị giác
Vision Transformer (ViT), được giới thiệu bởi Dosovitskiy và cộng sự vào năm 2021, chia ảnh thành các mảng có kích thước cố định, coi các mảng đó như một chuỗi và áp dụng cơ chế tự chú ý (self-attention) của Transformer cho phân loại ảnh. Với đủ dữ liệu huấn luyện, nó vượt trội hơn mạng nơ-ron tích chập (CNN).
Đọc toàn bộ phương pháp
Đăng nhập bằng tài khoản miễn phí để đọc phần này.
Method map
The neighbourhood of related methods — select a node to explore.
+27 more
Nguồn tài liệu
Cách trích dẫn trang này
ScholarGate. (2026, June 1). Vision Transformer (ViT). ScholarGate. https://scholargate.app/vi/deep-learning/vision-transformer
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Mô hình khuếch tánHọc sâu↔ compare
- Generative Adversarial NetworkHọc sâu↔ compare
- Rừng ngẫu nhiênHọc máy↔ compare
- Máy Vectơ Hỗ trợ (Phân loại)Học máy↔ compare
- Bộ tự mã hóa biến phânHọc sâu↔ compare
Được tham chiếu bởi
Phát hiện lỗi trên trang này? Báo cáo hoặc đề xuất chỉnh sửa →