Machine learning

ビジョントランスフォーマー

Dosovitskiyらによって2021年に導入されたVision Transformer (ViT) は、画像を固定サイズのパッチに分割し、それらのパッチをシーケンスとして扱い、Transformerの自己注意機構を画像分類に適用する。十分な訓練データがあれば、畳み込みニューラルネットワーク (CNN) を凌駕する。

MethodMindで開く近日公開動画近日公開Download slides

手法の全文を読む

会員限定

無料アカウントでログインすると、このセクションを読めます。

ログイン

Method map

The neighbourhood of related methods — select a node to explore.

ビジョントランスフォーマー

拡散モデル Generative Adversarial N…ランダムフォレストサポートベクターマシン（分類）Variational Autoencoder BERTファインチューニング CLIP ドメイン適応型Transformer ドメイン適応型ビジョン・トランスフォーマー説明可能なVision Transformer

+27 more

出典

Dosovitskiy, A. et al. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR. link ↗
Touvron, H. et al. (2021). Training Data-Efficient Image Transformers. ICML. link ↗

このページの引用方法

ScholarGate. (2026, June 1). Vision Transformer (ViT). ScholarGate. https://scholargate.app/ja/deep-learning/vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

拡散モデル深層学習↔ compare
Generative Adversarial Network深層学習↔ compare
ランダムフォレスト機械学習↔ compare
サポートベクターマシン（分類）機械学習↔ compare
Variational Autoencoder深層学習↔ compare

Compare side by side →

この手法を参照する項目

BERTファインチューニング CLIP ドメイン適応型Transformer ドメイン適応型ビジョン・トランスフォーマー説明可能なVision Transformer ファインチューニングされたVision Transformer GPTファインチューニング画像分類 Kolmogorov-Arnold Networks LoRAとPEFT Mamba（ステート空間モデル）マスク化オートエンコーダ多言語Vision Transformer マルチモーダルBERTベース分類マルチモーダル自然言語処理マルチモーダル意味セグメンテーションマルチモーダル・トランスフォーマーマルチモーダルVision Transformer Segment Anything Model 自己教師ありGAN (Self-supervised GAN)自己教師あり画像分類自己教師ありインスタンスセグメンテーション自己教師あり意味セグメンテーション Self-supervised Vision Transformer Semi-supervised Vision Transformer SimCLR 空間時間グラフ畳み込みネットワーク Swin Transformer TimeGPT Vision Mamba 弱教師あり物体検出 Weakly Supervised Vision Transformer

このページに誤りを見つけましたか?報告・修正提案 →

手法の全文を読む

Method map

出典

このページの引用方法

関連手法

Which method?

この手法を参照する項目