Machine learning

Vision Transformer

Vision Transformer (ViT), introdus de Dosovitskiy și colaboratorii săi în 2021, împarte o imagine în patch-uri de dimensiuni fixe, tratează acele patch-uri ca pe o secvență și aplică mecanismul de auto-atenție al Transformer-ului pentru clasificarea imaginilor. Având suficiente date de antrenament, depășește rețelele neuronale convoluționale (CNN).

Deschide în MethodMindÎn curândVideoÎn curândDownload slides

Citește metoda completă

Doar pentru membri

Autentifică-te cu un cont gratuit pentru a citi această secțiune.

Autentificare

Method map

The neighbourhood of related methods — select a node to explore.

Vision Transformer

Model de difuzie Rețea Generativă Adversa…Pădurea Aleatoare (Rando…Mașina cu Vectori Suport…Autoencoder Variațional Reglajul fin BERT CLIP Transformer Adaptat la D…Vision Transformer Adapt…Vision Transformer Expli…

+27 more

Surse

Dosovitskiy, A. et al. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR. link ↗
Touvron, H. et al. (2021). Training Data-Efficient Image Transformers. ICML. link ↗

Cum se citează această pagină

ScholarGate. (2026, June 1). Vision Transformer (ViT). ScholarGate. https://scholargate.app/ro/deep-learning/vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Model de difuzieÎnvățare profundă↔ compare
Rețea Generativă AdversarialÎnvățare profundă↔ compare
Pădurea Aleatoare (Random Forest)Învățare automată↔ compare
Mașina cu Vectori Suport (Clasificare)Învățare automată↔ compare
Autoencoder VariaționalÎnvățare profundă↔ compare

Compare side by side →

Citat de

Reglajul fin BERT CLIP Transformer Adaptat la Domeniu Vision Transformer Adaptiv al Domeniu Vision Transformer Explicabil Vision Transformer (ViT) fin-tunat Ajustarea fină a modelelor GPT Clasificarea Imaginilor Rețele Kolmogorov-Arnold LoRA și PEFT Mamba (Model de Spațiu de Stări)Autoencodere mascate Vision Transformer multilingv (Multilingual ViT)Clasificare multimodală bazată pe BERT NLP multimodal Segmentare semantică multimodală Transformer Multimodal Transformer Vizual Multimodal Modelul Segment Anything GAN auto-supervizat Clasificare de imagini auto-supervizată Segmentarea instanțelor auto-supervizată Segmentare semantică auto-supervizată Vision Transformer auto-supervizat Vision Transformer semi-supervizat SimCLR Rețele neuronale convoluționale grafice spațio-temporale Swin Transformer TimeGPT Vision Mamba Detecția slab supervizată a obiectelor Vision Transformer cu Supraveghere Slabă

Ai observat o problemă pe această pagină? Raportează sau sugerează o corectură →

Citește metoda completă

Method map

Surse

Cum se citează această pagină

Metode înrudite

Which method?

Citat de