Machine learning

Vision Transformer

Vision Transformer (ViT), mille Dosovitskiy ja kolleegid 2021. aastal tutvustasid, jagab pildi fikseeritud suurusega osadeks (ingl k *patch*), käsitleb neid osi järjestusena ja rakendab Transformer-i enesetähelepanu mehhanismi pildiklassifikatsiooniks. Piisava treeningandmestiku korral ületab see konvolutsioonilisi neurovõrke (CNN).

Ava rakenduses MethodMindPeagiVideoPeagiDownload slides

Loe meetodi täielikku kirjeldust

Ainult liikmetele

Selle osa lugemiseks logi sisse tasuta kontoga.

Logi sisse

Method map

The neighbourhood of related methods — select a node to explore.

Vision Transformer

Difusioonimudel Generatiivne võistlev võ…Juhuslik mets Support Vector Machine (…Variational Autoencoder BERT-mudeli täpsustamine CLIP Domain-Adaptive Transfor…Domeeni-adaptiivne Visio…Selgitatav nähtavusega t…

+27 more

Allikad

Dosovitskiy, A. et al. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR. link ↗
Touvron, H. et al. (2021). Training Data-Efficient Image Transformers. ICML. link ↗

Kuidas sellele lehele viidata

ScholarGate. (2026, June 1). Vision Transformer (ViT). ScholarGate. https://scholargate.app/et/deep-learning/vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

DifusioonimudelSüvaõpe↔ compare
Generatiivne võistlev võrkSüvaõpe↔ compare
Juhuslik metsMasinõpe↔ compare
Support Vector Machine (Klassifitseerimine)Masinõpe↔ compare
Variational AutoencoderSüvaõpe↔ compare

Compare side by side →

Sellele viitavad

BERT-mudeli täpsustamine CLIP Domain-Adaptive Transformer Domeeni-adaptiivne Vision Transformer Selgitatav nähtavusega transformer (Explainable Vision Transformer)Häälestatud nägemistransformaator GPT peenhäälestus Pildiklassifikatsioon Kolmogorov-Arnoldi võrgud LoRA ja PEFT Mamba (oleku-ruumi mudel)Maskeeritud autoenkoodrid Mitmekeelne visioonitransformaator Mitmemodaalne BERT-põhine klassifitseerimine Multimodaalne NLP – nägemise ja keele mõistmine Multimodaalne semantiline segmenteerimine Multimodaalne Transformer Multimodaalne Visioonitransformaator Segment Anything Model Eneseteadlik GAN Isejuhendatud pildiklassifikatsioon Eneseteadlik instantségmenteerimine Enesest juhendatud semantiline segmenteerimine Eneseliseeritud nägemistransformaator Poolitud järelevalvega nägemustransformaator SimCLR Ruumilis-ajaline graafikonvolutsioonivõrgustikud Swin Transformer TimeGPT Vision Mamba Nõrgalt juhendatud objektituvastus Nõrgalt juhendatud visioonitransformaator

Märkasid sellel lehel viga? Teata sellest või paku parandust →

Loe meetodi täielikku kirjeldust

Method map

Allikad

Kuidas sellele lehele viidata

Seotud meetodid

Which method?

Sellele viitavad