Machine learning

Vision Transformer

Vision Transformer (ViT), представленный Dosovitskiy и его коллегами в 2021 году, разбивает изображение на патчи фиксированного размера, рассматривает эти патчи как последовательность и применяет механизм самовнимания Transformer для классификации изображений. При достаточном объеме обучающих данных он превосходит сверточные нейронные сети (CNN).

Открыть в MethodMindСкороВидеоСкороDownload slides

Читать метод полностью

Только для участников

Войдите с бесплатным аккаунтом, чтобы прочитать этот раздел.

Войти

Method map

The neighbourhood of related methods — select a node to explore.

Vision Transformer

Диффузионная модель Генеративно-состязательн…Случайный лес Метод опорных векторов (…Вариационный автокодиров…Дообучение BERT CLIP Доменно-адаптивный Транс…Адаптивный к домену Visi…Объяснимый Vision Transf…

+27 more

Источники

Dosovitskiy, A. et al. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR. link ↗
Touvron, H. et al. (2021). Training Data-Efficient Image Transformers. ICML. link ↗

Как цитировать эту страницу

ScholarGate. (2026, June 1). Vision Transformer (ViT). ScholarGate. https://scholargate.app/ru/deep-learning/vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Диффузионная модельГлубокое обучение↔ compare
Генеративно-состязательная сетьГлубокое обучение↔ compare
Случайный лесМашинное обучение↔ compare
Метод опорных векторов (классификация)Машинное обучение↔ compare
Вариационный автокодировщикГлубокое обучение↔ compare

Compare side by side →

Упоминается в

Дообучение BERT CLIP Доменно-адаптивный Трансформер Адаптивный к домену Vision Transformer Объяснимый Vision Transformer Дообученный Vision Transformer Тонкая настройка GPT Классификация изображений Сети Колмогорова-Арнольда LoRA и PEFT Mamba (модель на основе пространств состояний)Маскированные автокодировщики Многоязычный Vision Transformer Мультимодальная классификация на основе BERT Мультимодальная обработка естественного языка Мультимодальная семантическая сегментация Мультимодальный трансформер Мультимодальный Vision Transformer Сегментационная модель «Сегментируй всё»Self-supervised GAN Самообучающаяся классификация изображений Самообучающаяся сегментация экземпляров Самообучающаяся семантическая сегментация Самообучающийся Vision Transformer Трансформер зрения с полуавтоматическим обучением SimCLR Пространственно-временные графовые свёрточные сети Swin Transformer TimeGPT Vision Mamba Слабо контролируемое обнаружение объектов Трансформер зрения со слабой разметкой (WS-ViT)

Нашли ошибку на этой странице? Сообщите о ней или предложите исправление →

Читать метод полностью

Method map

Источники

Как цитировать эту страницу

Связанные методы

Which method?

Упоминается в