Machine learning

Vision Transformer

O Vision Transformer (ViT), introduzido por Dosovitskiy e colegas em 2021, divide uma imagem em patches de tamanho fixo, trata esses patches como uma sequência e aplica o mecanismo de autoatenção do Transformer à classificação de imagens. Com dados de treinamento suficientes, ele supera as redes neurais convolucionais (CNNs).

Abrir no MethodMindEm breveVídeoEm breveDownload slides

Leia o método completo

Exclusivo para membros

Entre com uma conta gratuita para ler esta seção.

Entrar

Method map

The neighbourhood of related methods — select a node to explore.

Vision Transformer

Diffusion Model Rede Adversarial Generat…Random Forest Máquina de Vetores de Su…Autoencoder Variacional Ajuste Fino de BERT CLIP Transformer Adaptado ao…Vision Transformer Adapt…Transformador de Visão E…

+27 more

Fontes

Dosovitskiy, A. et al. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR. link ↗
Touvron, H. et al. (2021). Training Data-Efficient Image Transformers. ICML. link ↗

Como citar esta página

ScholarGate. (2026, June 1). Vision Transformer (ViT). ScholarGate. https://scholargate.app/pt/deep-learning/vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Diffusion ModelAprendizado profundo↔ compare
Rede Adversarial GenerativaAprendizado profundo↔ compare
Random ForestAprendizado de máquina↔ compare
Máquina de Vetores de Suporte (Classificação)Aprendizado de máquina↔ compare
Autoencoder VariacionalAprendizado profundo↔ compare

Compare side by side →

Referenciado por

Ajuste Fino de BERT CLIP Transformer Adaptado ao Domínio Vision Transformer Adaptativo a Domínio Transformador de Visão Explicável Vision Transformer (ViT) Ajustado GPT Fine-Tuning Classificação de Imagens Redes Kolmogorov-Arnold LoRA e PEFT Mamba (Modelo de Espaço de Estados)Autoencoders Mascarados Transformador de Visão Multilíngue Classificação Multimodal Baseada em BERT PNL multimodal Segmentação Semântica Multimodal Transformer Multimodal Multimodal Vision Transformer Modelo Segment Anything GAN auto-supervisionado Classificação de Imagens Auto-supervisionada Segmentação de Instâncias Auto-supervisionada Segmentação Semântica Auto-supervisionada Vision Transformer Autossupervisionado Vision Transformer Semi-Supervisionado SimCLR Redes Neurais Convolucionais Espaço-Temporais em Grafos Swin Transformer TimeGPT Vision Mamba Detecção de Objetos com Supervisão Fraca Vision Transformer com Supervisão Fraca

Encontrou um problema nesta página? Relate ou sugira uma correção →

Leia o método completo

Method map

Fontes

Como citar esta página

Métodos relacionados

Which method?

Referenciado por