Machine learning

Transformer wa Maono

Transformer wa Maono (ViT), ulioanzishwa na Dosovitskiy na wenzake mwaka 2021, hugawanya picha katika vipande vya ukubwa sawa, huwatendea vipande hivyo kama mfuatano, na hutumia utaratibu wa kujitazama wa Transformer kwa ajili ya uainishaji wa picha. Kwa data ya kutosha ya mafunzo, unazidi mitandao ya neva ya konvolusheni (CNNs).

Fungua katika MethodMindHivi karibuniVideoHivi karibuniDownload slides

Soma mbinu kamili

Kwa wanachama pekee

Ingia kwa akaunti ya bure ili kusoma sehemu hii.

Ingia

Method map

The neighbourhood of related methods — select a node to explore.

Transformer wa Maono

Mfumo wa Uenezaji Mtandao wa Kushawishi un…Msitu Nasibu Support Vector Machine (…Variational Autoencoder Urekebishaji wa BERT CLIP Transformer zinazobadili…Transformer wa Maono una…Transformer ya Maono Ina…

+27 more

Vyanzo

Dosovitskiy, A. et al. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR. link ↗
Touvron, H. et al. (2021). Training Data-Efficient Image Transformers. ICML. link ↗

Jinsi ya kunukuu ukurasa huu

ScholarGate. (2026, June 1). Vision Transformer (ViT). ScholarGate. https://scholargate.app/sw/deep-learning/vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Mfumo wa UenezajiUjifunzaji wa Kina↔ compare
Mtandao wa Kushawishi unaozalisha (Generative Adversarial Network - GAN)Ujifunzaji wa Kina↔ compare
Msitu NasibuUjifunzaji wa Mashine↔ compare
Support Vector Machine (Uainishaji)Ujifunzaji wa Mashine↔ compare
Variational AutoencoderUjifunzaji wa Kina↔ compare

Compare side by side →

Imerejelewa na

Urekebishaji wa BERT CLIP Transformer zinazobadilika na dhima (Domain-Adaptive Transformer - DAT)Transformer wa Maono unaobadilika na Kikoa Transformer ya Maono Inayoeleweka Vision Transformer Iliyobadilishwa Utekelezaji wa GPT (GPT Fine-Tuning)Uainishaji wa Picha Miamala ya Kolmogorov-Arnold LoRA na PEFT Mamba (Muundo wa Nafasi ya Hali)Autoenkoda Zilizofunikwa Multilingual vision transformer Uainishaji wa Multimodal unaotegemea BERT Usindikaji wa Lugha Asilia wa Multimodal Uainishaji wa Kisemantiki wa Modali Nyingi Transformeri wa Multimodal Transformer wa Maono wa Multimodal Mfumo wa Kutenganisha Kila Kitu GAN Inayojisimamia Kwenye Usimamizi (Self-supervised GAN)Uainishaji wa Picha kwa Kujisimamia Ugawaji wa Vielelezo Unaosimamiwa Kijitegemea Uchambuzi wa maana kwa njia ya kujitegemea Transformer wa Maono unaojifundisha Mabadilishaji ya Macho Yaliyosaidiwa kwa Nusu SimCLR Mitandao ya Usanifu wa Grafu za Anga-Wakati Swin Transformer TimeGPT Vision Mamba Uchanganuzi wa Objekti kwa Njia ya Kudokezwa kwa Udhaifu (WSOD)Kigeuzi cha Taswira Kinachosimamiwa Kidogo

Umeona tatizo kwenye ukurasa huu? Ripoti au pendekeza marekebisho →

Soma mbinu kamili

Method map

Vyanzo

Jinsi ya kunukuu ukurasa huu

Mbinu zinazohusiana

Which method?

Imerejelewa na