Machine learning

Трансформер для комп'ютерного зору

Трансформер для комп'ютерного зору (Vision Transformer, ViT), представлений Досовіцьким та його колегами у 2021 році, розбиває зображення на патчі фіксованого розміру, розглядає ці патчі як послідовність і застосовує механізм самостійної уваги трансформера для класифікації зображень. За наявності достатньої кількості навчальних даних він перевершує згорткові нейронні мережі (CNN).

Відкрити у MethodMindНезабаромВідеоНезабаромDownload slides

Читати метод повністю

Лише для учасників

Увійдіть із безкоштовним обліковим записом, щоб прочитати цей розділ.

Увійти

Method map

The neighbourhood of related methods — select a node to explore.

Трансформер для комп'ютерного зору

Дифузійна модель Генеративно-змагальна ме…Випадковий ліс Метод опорних векторів (…Варіаційний автокодуваль…Доналаштування BERT CLIP Доменно-адаптивний Транс…Адаптивний до домену тра…Пояснюваний Vision Trans…

+27 more

Джерела

Dosovitskiy, A. et al. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR. link ↗
Touvron, H. et al. (2021). Training Data-Efficient Image Transformers. ICML. link ↗

Як цитувати цю сторінку

ScholarGate. (2026, June 1). Vision Transformer (ViT). ScholarGate. https://scholargate.app/uk/deep-learning/vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Дифузійна модельГлибоке навчання↔ compare
Генеративно-змагальна мережаГлибоке навчання↔ compare
Випадковий лісМашинне навчання↔ compare
Метод опорних векторів (класифікація)Машинне навчання↔ compare
Варіаційний автокодувальникГлибоке навчання↔ compare

Compare side by side →

Згадується в

Доналаштування BERT CLIP Доменно-адаптивний Трансформер Адаптивний до домену трансформер для зорових даних Пояснюваний Vision Transformer Vision Transformer з доналаштуванням Доналаштування GPT Класифікація зображень Мережі Колмогорова-Арнольда LoRA та PEFT Mamba (модель на основі простору станів)Масковані автокодувальники Багатомовний Vision Transformer Мультимодальна класифікація на основі BERT Багатомодальна обробка природної мови Мультимодальна семантична сегментація Мультимодальний Трансформер Мультимодальний трансформер бачення Модель сегментації всього (Segment Anything Model)Self-supervised GAN Самокерована класифікація зображень Самокероване сегментування екземплярів Самокерована семантична сегментація Самокерований Трансформер Бачення Трансформер зору з напівкерованим навчанням SimCLR Просторово-часові згорткові графові мережі Swin Transformer TimeGPT Vision Mamba Слабконавчене детектування об'єктів Трансформер для зображень зі слабким наглядом

Помітили помилку на цій сторінці? Повідомте про неї або запропонуйте виправлення →

Читати метод повністю

Method map

Джерела

Як цитувати цю сторінку

Пов'язані методи

Which method?

Згадується в