Vision Transformer
Vision Transformer (ViT), представленный Dosovitskiy и его коллегами в 2021 году, разбивает изображение на патчи фиксированного размера, рассматривает эти патчи как последовательность и применяет механизм самовнимания Transformer для классификации изображений. При достаточном объеме обучающих данных он превосходит сверточные нейронные сети (CNN).
Читать метод полностью
Войдите с бесплатным аккаунтом, чтобы прочитать этот раздел.
Method map
The neighbourhood of related methods — select a node to explore.
+27 more
Источники
Как цитировать эту страницу
ScholarGate. (2026, June 1). Vision Transformer (ViT). ScholarGate. https://scholargate.app/ru/deep-learning/vision-transformer
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Диффузионная модельГлубокое обучение↔ compare
- Генеративно-состязательная сетьГлубокое обучение↔ compare
- Случайный лесМашинное обучение↔ compare
- Метод опорных векторов (классификация)Машинное обучение↔ compare
- Вариационный автокодировщикГлубокое обучение↔ compare
Упоминается в
Нашли ошибку на этой странице? Сообщите о ней или предложите исправление →