ScholarGate
Trợ lý
Machine learning

Transformer Thị giác

Vision Transformer (ViT), được giới thiệu bởi Dosovitskiy và cộng sự vào năm 2021, chia ảnh thành các mảng có kích thước cố định, coi các mảng đó như một chuỗi và áp dụng cơ chế tự chú ý (self-attention) của Transformer cho phân loại ảnh. Với đủ dữ liệu huấn luyện, nó vượt trội hơn mạng nơ-ron tích chập (CNN).

Mở trong MethodMindSắp ra mắtVideoSắp ra mắtDownload slides

Đọc toàn bộ phương pháp

Chỉ dành cho thành viên

Đăng nhập bằng tài khoản miễn phí để đọc phần này.

Đăng nhập

Method map

The neighbourhood of related methods — select a node to explore.

+27 more

Nguồn tài liệu

  1. Dosovitskiy, A. et al. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR. link
  2. Touvron, H. et al. (2021). Training Data-Efficient Image Transformers. ICML. link

Cách trích dẫn trang này

ScholarGate. (2026, June 1). Vision Transformer (ViT). ScholarGate. https://scholargate.app/vi/deep-learning/vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Được tham chiếu bởi

ScholarGateVision Transformer (Vision Transformer (ViT)). Truy cập ngày 2026-06-15 từ https://scholargate.app/vi/deep-learning/vision-transformer · Bộ dữ liệu: https://doi.org/10.5281/zenodo.20539026