Machine learning

Vision Transformer

Vision Transformer (ViT), představený Dosovitskiym a kolegy v roce 2021, rozděluje obraz na patche pevné velikosti, zachází s těmito patchy jako se sekvencí a aplikuje mechanismus self-attention Transformeru na klasifikaci obrazu. Při dostatečném množství trénovacích dat překonává konvoluční neuronové sítě (CNN).

Otevřít v MethodMindJiž brzyVideoJiž brzyDownload slides

Přečíst celou metodu

Pouze pro členy

Pro přečtení této sekce se přihlaste s bezplatným účtem.

Přihlásit se

Method map

The neighbourhood of related methods — select a node to explore.

Vision Transformer

Difuzní model Generativní adversariáln…Random Forest Stroj s podpůrnými vekto…Variační autoenkodér Dolaďování modelu BERT CLIP Adaptivní Transformer pr…Doménově adaptivní Visio…Explainable Vision Trans…

+27 more

Zdroje

Dosovitskiy, A. et al. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR. link ↗
Touvron, H. et al. (2021). Training Data-Efficient Image Transformers. ICML. link ↗

Jak citovat tuto stránku

ScholarGate. (2026, June 1). Vision Transformer (ViT). ScholarGate. https://scholargate.app/cs/deep-learning/vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Difuzní modelHluboké učení↔ compare
Generativní adversariální síťHluboké učení↔ compare
Random ForestStrojové učení↔ compare
Stroj s podpůrnými vektory (klasifikace)Strojové učení↔ compare
Variační autoenkodérHluboké učení↔ compare

Compare side by side →

Odkazuje sem

Dolaďování modelu BERT CLIP Adaptivní Transformer pro doménu Doménově adaptivní Vision Transformer Explainable Vision Transformer Dolaďovaný Vision Transformer Dolaďování GPT Klasifikace obrazu Kolmogorov-Arnoldovy sítě LoRA a PEFT Mamba (model stavového prostoru)Maskované autoenkodéry Vícejazyčný Vision Transformer Víceúčelová klasifikace založená na BERT Multimodální zpracování přirozeného jazyka Multimodální sémantická segmentace Multimodální Transformer Multimodální Vision Transformer Segment Anything Model Samoučící se GAN Samoučení klasifikace obrazu Self-supervised Instance Segmentation Samodzielná sémantická segmentace Samoučící se vidění Transformer Polo-supervizovaný Vision Transformer SimCLR Prostorově-časové grafové konvoluční sítě Swin Transformer TimeGPT Vision Mamba Slabě supervizovaná detekce objektů Slabě dohlížený Vision Transformer

Našli jste na této stránce chybu? Nahlaste ji nebo navrhněte opravu →

Přečíst celou metodu

Method map

Zdroje

Jak citovat tuto stránku

Příbuzné metody

Which method?

Odkazuje sem