ScholarGate
Assistent
Machine learning

Vision Transformer

Vision Transformer (ViT), mille Dosovitskiy ja kolleegid 2021. aastal tutvustasid, jagab pildi fikseeritud suurusega osadeks (ingl k *patch*), käsitleb neid osi järjestusena ja rakendab Transformer-i enesetähelepanu mehhanismi pildiklassifikatsiooniks. Piisava treeningandmestiku korral ületab see konvolutsioonilisi neurovõrke (CNN).

Ava rakenduses MethodMindPeagiVideoPeagiDownload slides

Loe meetodi täielikku kirjeldust

Ainult liikmetele

Selle osa lugemiseks logi sisse tasuta kontoga.

Logi sisse

Method map

The neighbourhood of related methods — select a node to explore.

+27 more

Allikad

  1. Dosovitskiy, A. et al. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR. link
  2. Touvron, H. et al. (2021). Training Data-Efficient Image Transformers. ICML. link

Kuidas sellele lehele viidata

ScholarGate. (2026, June 1). Vision Transformer (ViT). ScholarGate. https://scholargate.app/et/deep-learning/vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Sellele viitavad

ScholarGateVision Transformer (Vision Transformer (ViT)). Loetud 2026-06-15 aadressilt https://scholargate.app/et/deep-learning/vision-transformer · Andmestik: https://doi.org/10.5281/zenodo.20539026