Machine learning

Vision Transformer

Vision Transformer (ViT), predstavljen od strane Dosovitskiyja i kolega 2021. godine, dijeli sliku na zakrpe fiksne veličine, tretira te zakrpe kao sekvencu i primjenjuje mehanizam samopažnje (self-attention) Transformera na klasifikaciju slika. Uz dovoljno podataka za treniranje, nadmašuje konvolucijske neuralne mreže (CNN).

Otvorite u MethodMindUskoroVideoUskoroDownload slides

Pročitajte cijelu metodu

Samo za članove

Prijavite se besplatnim računom kako biste pročitali ovaj odjeljak.

Prijavite se

Method map

The neighbourhood of related methods — select a node to explore.

Vision Transformer

Difuzijski model Generativna suparnička m…Slučajna šuma Stroj potpornih vektora…Varijacijski autoenkoder Prilagođavanje BERT-a (B…CLIP Domenski prilagodljiv Tr…Domain-Adaptive Vision T…Objašnjivi Vision Transf…

+27 more

Izvori

Dosovitskiy, A. et al. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR. link ↗
Touvron, H. et al. (2021). Training Data-Efficient Image Transformers. ICML. link ↗

Kako citirati ovu stranicu

ScholarGate. (2026, June 1). Vision Transformer (ViT). ScholarGate. https://scholargate.app/hr/deep-learning/vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Difuzijski modelDuboko učenje↔ compare
Generativna suparnička mrežaDuboko učenje↔ compare
Slučajna šumaStrojno učenje↔ compare
Stroj potpornih vektora (klasifikacija)Strojno učenje↔ compare
Varijacijski autoenkoderDuboko učenje↔ compare

Compare side by side →

Citirana u

Prilagođavanje BERT-a (BERT Fine-Tuning)CLIP Domenski prilagodljiv Transformer Domain-Adaptive Vision Transformer Objašnjivi Vision Transformer Prilagođeni Vision Transformer Prilagođavanje GPT modela (GPT Fine-Tuning)Klasifikacija slika Kolmogorov-Arnold Networks LoRA i PEFT Mamba (model prostora stanja)Masked Autoencoders Višejezični vizualni Transformer Multimodalna klasifikacija utemeljena na BERT-u Višemodalni NLP Višespektralna semantička segmentacija Multimodalni Transformer Multimodalni vizualni transformer Segment Anything Model Samonadzirani GAN Samonadzorirana klasifikacija slika Samoučenje segmentacije instanci Samoučenje semantičke segmentacije Samonadzorovani Vision Transformer Polu-nadgledani Vision Transformer SimCLR Prostorno-vremenske konvolucijske mreže na grafovima Swin Transformer TimeGPT Vision Mamba Slaba nadzirana detekcija objekata Slabo nadzirani Vision Transformer

Uočili ste pogrešku na ovoj stranici? Prijavite je ili predložite ispravak →

Pročitajte cijelu metodu

Method map

Izvori

Kako citirati ovu stranicu

Srodne metode

Which method?

Citirana u