Machine learning

Transformator voor Visuele Waarneming

De Vision Transformer (ViT), geïntroduceerd door Dosovitskiy en collega's in 2021, splitst een afbeelding in patches van vaste grootte, behandelt deze patches als een sequentie en past het Transformer self-attention mechanisme toe op beeldclassificatie. Met voldoende trainingsdata overtreft het convolutionele neurale netwerken (CNN's).

Openen in MethodMindBinnenkortVideoBinnenkortDownload slides

Lees de volledige methode

Alleen voor leden

Inloggen

Method map

The neighbourhood of related methods — select a node to explore.

Transformator voor Visuele Waarneming

Diffusion Model Generatief Adversarieel…Random Forest Support Vector Machine (…Variational Autoencoder BERT Fine-Tuning CLIP Domein-Adaptieve Transfo…Domein-Adaptieve Vision…Verklaarbare Vision Tran…

+27 more

Bronnen

Dosovitskiy, A. et al. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR. link ↗
Touvron, H. et al. (2021). Training Data-Efficient Image Transformers. ICML. link ↗

Deze pagina citeren

ScholarGate. (2026, June 1). Vision Transformer (ViT). ScholarGate. https://scholargate.app/nl/deep-learning/vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Diffusion ModelDeep learning↔ compare
Generatief Adversarieel NetwerkDeep learning↔ compare
Random ForestMachine learning↔ compare
Support Vector Machine (Classificatie)Machine learning↔ compare
Variational AutoencoderDeep learning↔ compare

Compare side by side →

Geciteerd door

BERT Fine-Tuning CLIP Domein-Adaptieve Transformer Domein-Adaptieve Vision Transformer Verklaarbare Vision Transformer Fijn-afgestelde Vision Transformer GPT Fine-Tuning Beeldclassificatie Kolmogorov-Arnold Networks LoRA en PEFT Mamba (State Space Model)Masked Autoencoders Meertalige Vision Transformer Multimodale BERT-gebaseerde classificatie Multimodale NLP Multimodale Semantische Segmentatie Multimodale Transformer Multimodale Vision Transformer Segment Anything Model Zelfgesuperviseerde GAN Zelfgesuperviseerde beeldclassificatie Self-supervised Instance Segmentation Zelf-gesuperviseerde semantische segmentatie Zelf-gesuperviseerde Vision Transformer Semi-supervised Vision Transformer SimCLR Ruimtelijke-Temporele Grafische Convolutie Netwerken Swin Transformer TimeGPT Vision Mamba Objectdetectie met zwakke supervisie Vision Transformer voor zwakke supervisie

Een fout op deze pagina gezien? Meld het of stel een correctie voor →

Lees de volledige methode

Method map

Bronnen

Deze pagina citeren

Verwante methoden

Which method?

Geciteerd door