Machine learning

Vision Transformer

Vision Transformer (ViT), представленный Dosovitskiy и его коллегами в 2021 году, разбивает изображение на патчи фиксированного размера, рассматривает эти патчи как последовательность и применяет механизм самовнимания Transformer для классификации изображений. При достаточном объеме обучающих данных он превосходит сверточные нейронные сети (CNN).

Открыть в MethodMindСкороВидеоСкороDownload slides

Читать метод полностью

Только для участников

Войдите с бесплатным аккаунтом, чтобы прочитать этот раздел.

Войти

Method map

The neighbourhood of related methods — select a node to explore.

+27 more

Источники

  1. Dosovitskiy, A. et al. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR. link
  2. Touvron, H. et al. (2021). Training Data-Efficient Image Transformers. ICML. link

Как цитировать эту страницу

ScholarGate. (2026, June 1). Vision Transformer (ViT). ScholarGate. https://scholargate.app/ru/deep-learning/vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Упоминается в

Дообучение BERTCLIPДоменно-адаптивный ТрансформерАдаптивный к домену Vision TransformerОбъяснимый Vision TransformerДообученный Vision TransformerТонкая настройка GPTКлассификация изображенийСети Колмогорова-АрнольдаLoRA и PEFTMamba (модель на основе пространств состояний)Маскированные автокодировщикиМногоязычный Vision TransformerМультимодальная классификация на основе BERTМультимодальная обработка естественного языкаМультимодальная семантическая сегментацияМультимодальный трансформерМультимодальный Vision TransformerСегментационная модель «Сегментируй всё»Self-supervised GANСамообучающаяся классификация изображенийСамообучающаяся сегментация экземпляровСамообучающаяся семантическая сегментацияСамообучающийся Vision TransformerТрансформер зрения с полуавтоматическим обучениемSimCLRПространственно-временные графовые свёрточные сетиSwin TransformerTimeGPTVision MambaСлабо контролируемое обнаружение объектовТрансформер зрения со слабой разметкой (WS-ViT)
ScholarGateVision Transformer (Vision Transformer (ViT)). Получено 2026-06-15 из https://scholargate.app/ru/deep-learning/vision-transformer · Набор данных: https://doi.org/10.5281/zenodo.20539026