Machine learning

Трансформер для комп'ютерного зору

Трансформер для комп'ютерного зору (Vision Transformer, ViT), представлений Досовіцьким та його колегами у 2021 році, розбиває зображення на патчі фіксованого розміру, розглядає ці патчі як послідовність і застосовує механізм самостійної уваги трансформера для класифікації зображень. За наявності достатньої кількості навчальних даних він перевершує згорткові нейронні мережі (CNN).

Відкрити у MethodMindНезабаромВідеоНезабаромDownload slides

Читати метод повністю

Лише для учасників

Увійдіть із безкоштовним обліковим записом, щоб прочитати цей розділ.

Увійти

Method map

The neighbourhood of related methods — select a node to explore.

+27 more

Джерела

  1. Dosovitskiy, A. et al. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR. link
  2. Touvron, H. et al. (2021). Training Data-Efficient Image Transformers. ICML. link

Як цитувати цю сторінку

ScholarGate. (2026, June 1). Vision Transformer (ViT). ScholarGate. https://scholargate.app/uk/deep-learning/vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Згадується в

Доналаштування BERTCLIPДоменно-адаптивний ТрансформерАдаптивний до домену трансформер для зорових данихПояснюваний Vision TransformerVision Transformer з доналаштуваннямДоналаштування GPTКласифікація зображеньМережі Колмогорова-АрнольдаLoRA та PEFTMamba (модель на основі простору станів)Масковані автокодувальникиБагатомовний Vision TransformerМультимодальна класифікація на основі BERTБагатомодальна обробка природної мовиМультимодальна семантична сегментаціяМультимодальний ТрансформерМультимодальний трансформер баченняМодель сегментації всього (Segment Anything Model)Self-supervised GANСамокерована класифікація зображеньСамокероване сегментування екземплярівСамокерована семантична сегментаціяСамокерований Трансформер БаченняТрансформер зору з напівкерованим навчаннямSimCLRПросторово-часові згорткові графові мережіSwin TransformerTimeGPTVision MambaСлабконавчене детектування об'єктівТрансформер для зображень зі слабким наглядом
ScholarGateVision Transformer (Vision Transformer (ViT)). Отримано 2026-06-15 з https://scholargate.app/uk/deep-learning/vision-transformer · Набір даних: https://doi.org/10.5281/zenodo.20539026