Machine learning

Vision Transformer

Vizion Transformer (ViT), koji su uveli Dosovitskiy i saradnici 2021. godine, deli sliku na zakrpe fiksne veličine, tretira te zakrpe kao sekvencu i primenjuje mehanizam samopažnje (self-attention) Transformera na klasifikaciju slika. Uz dovoljno podataka za obuku, nadmašuje konvolucione neuralne mreže (CNN).

Otvorite u MethodMindUskoroVideoUskoroDownload slides

Pročitajte celu metodu

Samo za članove

Prijavite se besplatnim nalogom da biste pročitali ovaj odeljak.

Prijavite se

Method map

The neighbourhood of related methods — select a node to explore.

Vision Transformer

Difuzioni model Generativna suparnička m…Slučajna šuma Support Vector Machine (…Varijacioni autoenkoder BERT fine-tuning CLIP Доменски-адаптивни Транс…Доменски-адаптивни Транс…Objašnjivi Vision Transf…

+27 more

Izvori

Dosovitskiy, A. et al. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR. link ↗
Touvron, H. et al. (2021). Training Data-Efficient Image Transformers. ICML. link ↗

Kako citirati ovu stranicu

ScholarGate. (2026, June 1). Vision Transformer (ViT). ScholarGate. https://scholargate.app/sr/deep-learning/vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Difuzioni modelDuboko učenje↔ compare
Generativna suparnička mrežaDuboko učenje↔ compare
Slučajna šumaMašinsko učenje↔ compare
Support Vector Machine (Klasifikacija)Mašinsko učenje↔ compare
Varijacioni autoenkoderDuboko učenje↔ compare

Compare side by side →

Citirana u

BERT fine-tuning CLIP Доменски-адаптивни Трансформер Доменски-адаптивни Трансформер вида Objašnjivi Vision Transformer Fine-Tuned Vision Transformer GPT fino-podešavanje Класификација слика Kolmogorov-Arnold Mreže LoRA i PEFT Mamba (model prostora stanja)Masked Autoencoders Вишејезички Трансформер вида Multimodalna klasifikacija zasnovana na BERT-u Multimodal NLP Multimodalna semantička segmentacija Multimodalni Transformer Multimodal Vision Transformer Segment Anything Model GAN sa samonadzorom Samonadgledana klasifikacija slika Samostalno nadgledana segmentacija instanci Samostalno nadgledana semantička segmentacija Self-supervised Vision Transformer Полу-надзирани Трансформер за Визију SimCLR Konvolucione neuronske mreže zasnovane na prostorno-vremenskim grafovima Swin Transformer TimeGPT Vision Mamba Slabo nadgledana detekcija objekata Визиони трансформер са слабом супервизијом

Uočili ste grešku na ovoj stranici? Prijavite je ili predložite ispravku →

Pročitajte celu metodu

Method map

Izvori

Kako citirati ovu stranicu

Srodne metode

Which method?

Citirana u