Machine learning

Vision Transformer

Vision Transformer (ViT), yang diperkenalkan oleh Dosovitskiy dan kolega pada tahun 2021, membagi citra menjadi potongan-potongan berukuran tetap, memperlakukan potongan-potongan tersebut sebagai urutan, dan menerapkan mekanisme perhatian diri (self-attention) Transformer untuk klasifikasi citra. Dengan data pelatihan yang cukup, ViT melampaui jaringan saraf konvolusional (CNN).

Buka di MethodMindSegeraVideoSegeraDownload slides

Baca metode selengkapnya

Khusus anggota

Masuk dengan akun gratis untuk membaca bagian ini.

Masuk

Method map

The neighbourhood of related methods — select a node to explore.

Vision Transformer

Model Difusi Jaringan Adversarial Gen…Random Forest Support Vector Machine (…Variational Autoencoder Fine-Tuning BERT CLIP Transformer Adaptif Doma…Vision Transformer Adapt…Vision Transformer yang…

+27 more

Sumber

Dosovitskiy, A. et al. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR. link ↗
Touvron, H. et al. (2021). Training Data-Efficient Image Transformers. ICML. link ↗

Cara menyitasi halaman ini

ScholarGate. (2026, June 1). Vision Transformer (ViT). ScholarGate. https://scholargate.app/id/deep-learning/vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Model DifusiPembelajaran Mendalam↔ compare
Jaringan Adversarial GeneratifPembelajaran Mendalam↔ compare
Random ForestPembelajaran Mesin↔ compare
Support Vector Machine (Klasifikasi)Pembelajaran Mesin↔ compare
Variational AutoencoderPembelajaran Mendalam↔ compare

Compare side by side →

Dirujuk oleh

Fine-Tuning BERT CLIP Transformer Adaptif Domain Vision Transformer Adaptif Domain Vision Transformer yang Dapat Dijelaskan Vision Transformer yang Disesuaikan (Fine-Tuned)Fine-Tuning GPT Klasifikasi Citra Jaringan Kolmogorov-Arnold LoRA dan PEFT Mamba (Model Ruang Keadaan)Autoenkoder Bertopeng Multilingual Vision Transformer Klasifikasi Berbasis BERT Multimodal NLP Multimodal Segmentasi Semantik Multimodal Transformer Multimodal Vision Transformer Multimodal Model Segmentasi Apa Pun Self-supervised GAN Klasifikasi Citra Mandiri-Terawasi Segmentasi Instans Mandiri (Self-supervised Instance Segmentation)Segmentasi Semantik Mandiri Vision Transformer Pengawasan Mandiri Semi-supervised Vision Transformer SimCLR Jaringan Konvolusional Graf Spasial-Temporal Swin Transformer TimeGPT Vision Mamba Deteksi Objek Berpengawasan Lemah Vision Transformer Supervisi Lemah

Menemukan masalah di halaman ini? Laporkan atau usulkan perbaikan →

Baca metode selengkapnya

Method map

Sumber

Cara menyitasi halaman ini

Metode terkait

Which method?

Dirujuk oleh