Machine learning

Transformer Thị giác

Vision Transformer (ViT), được giới thiệu bởi Dosovitskiy và cộng sự vào năm 2021, chia ảnh thành các mảng có kích thước cố định, coi các mảng đó như một chuỗi và áp dụng cơ chế tự chú ý (self-attention) của Transformer cho phân loại ảnh. Với đủ dữ liệu huấn luyện, nó vượt trội hơn mạng nơ-ron tích chập (CNN).

Mở trong MethodMindSắp ra mắtVideoSắp ra mắtDownload slides

Đọc toàn bộ phương pháp

Chỉ dành cho thành viên

Đăng nhập bằng tài khoản miễn phí để đọc phần này.

Đăng nhập

Method map

The neighbourhood of related methods — select a node to explore.

Transformer Thị giác

Mô hình khuếch tán Generative Adversarial N…Rừng ngẫu nhiên Máy Vectơ Hỗ trợ (Phân l…Bộ tự mã hóa biến phân Tinh chỉnh BERT CLIP Transformer Thích ứng Mi…Transformer Thị giác Thí…Explainable Vision Trans…

+27 more

Nguồn tài liệu

Dosovitskiy, A. et al. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR. link ↗
Touvron, H. et al. (2021). Training Data-Efficient Image Transformers. ICML. link ↗

Cách trích dẫn trang này

ScholarGate. (2026, June 1). Vision Transformer (ViT). ScholarGate. https://scholargate.app/vi/deep-learning/vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Mô hình khuếch tánHọc sâu↔ compare
Generative Adversarial NetworkHọc sâu↔ compare
Rừng ngẫu nhiênHọc máy↔ compare
Máy Vectơ Hỗ trợ (Phân loại)Học máy↔ compare
Bộ tự mã hóa biến phânHọc sâu↔ compare

Compare side by side →

Được tham chiếu bởi

Tinh chỉnh BERT CLIP Transformer Thích ứng Miền Transformer Thị giác Thích ứng Miền Explainable Vision Transformer Vision Transformer tinh chỉnh Tinh chỉnh GPT Phân loại ảnh Mạng Kolmogorov-Arnold LoRA và PEFT Mamba (Mô hình Không gian Trạng thái)Mô hình Tự mã hóa Che giấu Transformer Thị giác Đa ngôn ngữ Phân loại dựa trên BERT đa phương thức Xử lý ngôn ngữ tự nhiên đa phương thức Phân đoạn ngữ nghĩa đa phương thức Transformer Đa phương thức Transformer Thị giác Đa phương thức Mô hình Phân đoạn Mọi thứ Self-supervised GAN Phân loại ảnh tự giám sát Phân đoạn thể hiện tự giám sát Phân đoạn ngữ nghĩa tự giám sát Vision Transformer tự giám sát Vision Transformer bán giám sát SimCLR Mạng Nơ-ron Tích chập Đồ thị Không-Thời gian Swin Transformer TimeGPT Vision Mamba Phát hiện đối tượng yếu giám sát Vision Transformer Giám sát Yếu (WS-ViT)

Phát hiện lỗi trên trang này? Báo cáo hoặc đề xuất chỉnh sửa →

Đọc toàn bộ phương pháp

Method map

Nguồn tài liệu

Cách trích dẫn trang này

Phương pháp liên quan

Which method?

Được tham chiếu bởi