Machine learning

Vision Transformer

Vision Transformer (ViT), представен от Dosovitskiy и колеги през 2021 г., разделя изображение на пластини с фиксиран размер, третира тези пластини като последователност и прилага механизма за самонаблюдение (self-attention) на Transformer за класификация на изображения. При достатъчно данни за обучение той надминава конволюционните невронни мрежи (CNN).

Отворете в MethodMindСкороВидеоСкороDownload slides

Прочетете целия метод

Само за членове

Влезте с безплатен профил, за да прочетете този раздел.

Вход

Method map

The neighbourhood of related methods — select a node to explore.

+27 more

Източници

  1. Dosovitskiy, A. et al. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR. link
  2. Touvron, H. et al. (2021). Training Data-Efficient Image Transformers. ICML. link

Как да цитирате тази страница

ScholarGate. (2026, June 1). Vision Transformer (ViT). ScholarGate. https://scholargate.app/bg/deep-learning/vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Цитиран в

Финна настройка на BERTCLIPТрансформер с адаптация към домейнАдаптивен към домейна визуален трансформерОбясним Vision TransformerФино настроен Vision TransformerФината настройка на GPT (GPT Fine-Tuning)Класификация на изображенияКолмогоров-Арнолд мрежиLoRA и PEFTMamba (модел с отворено състояние)Маскирани автоенкодериМногоезичен Вижън ТрансформерМултимодална класификация, базирана на BERTМултимодален НЛПМултимодална семантична сегментацияМултимодален ТрансформерМултимодален Вижън ТрансформърМодел за сегментиране на всичкоGAN с надзор чрез самообучениеСамообучаваща се класификация на изображенияСамообучаваща се сегментация на отделни екземпляриСамообучаваща се семантична сегментацияТрансформер за зрение със самообучениеПолу-наблюдаван Трансформър за ВизияSimCLRПространствено-времеви конволюционни мрежи върху графиSwin TransformerTimeGPTVision MambaСлабо контролирано откриване на обектиСлабо контролиран Vision Transformer
ScholarGateVision Transformer (Vision Transformer (ViT)). Извлечено на 2026-06-15 от https://scholargate.app/bg/deep-learning/vision-transformer · Набор от данни: https://doi.org/10.5281/zenodo.20539026