ScholarGate
Pembantu
Machine learning

Transformer Visi

Transformer Visi (ViT), diperkenalkan oleh Dosovitskiy dan rakan-rakan pada tahun 2021, membahagikan imej kepada tampalan bersaiz tetap, memperlakukannya sebagai urutan, dan menggunakan mekanisme perhatian kendiri Transformer untuk klasifikasi imej. Dengan data latihan yang mencukupi, ia mengatasi rangkaian saraf konvolusional (CNN).

Buka dalam MethodMindTidak lama lagiVideoTidak lama lagiDownload slides

Baca kaedah sepenuhnya

Ahli sahaja

Log masuk dengan akaun percuma untuk membaca bahagian ini.

Log masuk

Method map

The neighbourhood of related methods — select a node to explore.

+27 more

Sumber

  1. Dosovitskiy, A. et al. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR. link
  2. Touvron, H. et al. (2021). Training Data-Efficient Image Transformers. ICML. link

Cara memetik halaman ini

ScholarGate. (2026, June 1). Vision Transformer (ViT). ScholarGate. https://scholargate.app/ms/deep-learning/vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Dirujuk oleh

ScholarGateVision Transformer (Vision Transformer (ViT)). Dicapai 2026-06-15 daripada https://scholargate.app/ms/deep-learning/vision-transformer · Set data: https://doi.org/10.5281/zenodo.20539026