Machine learning

Transformer Visi

Transformer Visi (ViT), diperkenalkan oleh Dosovitskiy dan rakan-rakan pada tahun 2021, membahagikan imej kepada tampalan bersaiz tetap, memperlakukannya sebagai urutan, dan menggunakan mekanisme perhatian kendiri Transformer untuk klasifikasi imej. Dengan data latihan yang mencukupi, ia mengatasi rangkaian saraf konvolusional (CNN).

Buka dalam MethodMindTidak lama lagiVideoTidak lama lagiDownload slides

Baca kaedah sepenuhnya

Ahli sahaja

Log masuk dengan akaun percuma untuk membaca bahagian ini.

Log masuk

Method map

The neighbourhood of related methods — select a node to explore.

Transformer Visi

Model Resapan Rangkaian Generatif Adve…Random Forest Mesin Vektor Sokongan (K…Autoenkoder Variasi Fine-Tuning BERT CLIP Transformer Adaptif Doma…Transformer Penglihatan…Penjelasan Visi Transfor…

+27 more

Sumber

Dosovitskiy, A. et al. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR. link ↗
Touvron, H. et al. (2021). Training Data-Efficient Image Transformers. ICML. link ↗

Cara memetik halaman ini

ScholarGate. (2026, June 1). Vision Transformer (ViT). ScholarGate. https://scholargate.app/ms/deep-learning/vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Model ResapanPembelajaran Mendalam↔ compare
Rangkaian Generatif AdversarialPembelajaran Mendalam↔ compare
Random ForestPembelajaran Mesin↔ compare
Mesin Vektor Sokongan (Klasifikasi)Pembelajaran Mesin↔ compare
Autoenkoder VariasiPembelajaran Mendalam↔ compare

Compare side by side →

Terjumpa masalah pada halaman ini? Laporkan atau cadangkan pembetulan →

Baca kaedah sepenuhnya

Method map

Sumber

Cara memetik halaman ini

Kaedah berkaitan

Which method?

Dirujuk oleh