Трансформер для комп'ютерного зору
Трансформер для комп'ютерного зору (Vision Transformer, ViT), представлений Досовіцьким та його колегами у 2021 році, розбиває зображення на патчі фіксованого розміру, розглядає ці патчі як послідовність і застосовує механізм самостійної уваги трансформера для класифікації зображень. За наявності достатньої кількості навчальних даних він перевершує згорткові нейронні мережі (CNN).
Читати метод повністю
Увійдіть із безкоштовним обліковим записом, щоб прочитати цей розділ.
Method map
The neighbourhood of related methods — select a node to explore.
+27 more
Джерела
Як цитувати цю сторінку
ScholarGate. (2026, June 1). Vision Transformer (ViT). ScholarGate. https://scholargate.app/uk/deep-learning/vision-transformer
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Дифузійна модельГлибоке навчання↔ compare
- Генеративно-змагальна мережаГлибоке навчання↔ compare
- Випадковий лісМашинне навчання↔ compare
- Метод опорних векторів (класифікація)Машинне навчання↔ compare
- Варіаційний автокодувальникГлибоке навчання↔ compare
Згадується в
Помітили помилку на цій сторінці? Повідомте про неї або запропонуйте виправлення →