Machine learning

Vision Transformer

Vision Transformer (ViT), i prezantuar nga Dosovitskiy dhe kolegët e tij në vitin 2021, e ndan një imazh në pjesë me madhësi fikse, i trajton ato pjesë si një sekuencë dhe aplikon mekanizmin e vetë-vëmendjes (self-attention) të Transformer për klasifikimin e imazheve. Me mjaftueshëm të dhëna trajnimi, ai tejkalon rrjetet nervore konvolucionale (CNN).

Hapeni në MethodMindSë shpejtiVideoSë shpejtiDownload slides

Lexoni metodën e plotë

Vetëm për anëtarët

Hyni me një llogari falas për ta lexuar këtë seksion.

Hyni

Method map

The neighbourhood of related methods — select a node to explore.

Vision Transformer

Model difuzioni Rrjeti kundërshtar gjene…Pylli i Rastësishëm Makineria e Vektorëve Mb…Autoenkoderi Varioacional Përshtatja e BERT CLIP Transformer i Përshtatsh…Vision Transformer i Për…Vizioni Transfomues i Sh…

+27 more

Burimet

Dosovitskiy, A. et al. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR. link ↗
Touvron, H. et al. (2021). Training Data-Efficient Image Transformers. ICML. link ↗

Si ta citoni këtë faqe

ScholarGate. (2026, June 1). Vision Transformer (ViT). ScholarGate. https://scholargate.app/sq/deep-learning/vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Model difuzioniMësimi i thellë↔ compare
Rrjeti kundërshtar gjeneruesMësimi i thellë↔ compare
Pylli i RastësishëmMësimi i makinës↔ compare
Makineria e Vektorëve Mbështetës (Klasifikimi)Mësimi i makinës↔ compare
Autoenkoderi VarioacionalMësimi i thellë↔ compare

Compare side by side →

Cituar nga

Përshtatja e BERT CLIP Transformer i Përshtatshëm për Domene Vision Transformer i Përshtatshëm për Domene (DA-ViT)Vizioni Transfomues i Shpjegueshëm Vision Transformer i Përshtatur (Fine-Tuned Vision Transformer)Përsosja e GPT (GPT Fine-Tuning)Klasifikimi i imazheve Rrjetet Kolmogorov-Arnold LoRA dhe PEFT Mamba (Model i Hapësirës së Gjendjes)Auto-koduesit e maskuar Transformeri vizual multilingua Klasifikimi i bazuar në BERT multimodal NLP Multimodale Segmentim i Multimodal Semantik Transformator Multimodal Transformer Vizioni Multimodal Modeli Segment Anything Self-supervised GAN Klasifikimi i Imazheve me Metoda Vetë-Mbikëqyrëse Segmentimi i vetë-mbikëqyrur i instancave Segmentim Semantik i Vetë-mbikëqyrur Vision Transformer i vetë-mbikëqyrur Vision Transformer gjysmë-i mbikëqyrur SimCLR Rrjeti konvolucional grafikuzioni hapësinoro-kohore Swin Transformer TimeGPT Vision Mamba Detektimi i dobët i mbikëqyrur i objekteve Transformues Vizual me Mbikëqyrje të Dobët

Vutë re një problem në këtë faqe? Raportojeni ose sugjeroni një korrigjim →

Lexoni metodën e plotë

Method map

Burimet

Si ta citoni këtë faqe

Metoda të lidhura

Which method?

Cituar nga