Machine learning
ビジョントランスフォーマー
Dosovitskiyらによって2021年に導入されたVision Transformer (ViT) は、画像を固定サイズのパッチに分割し、それらのパッチをシーケンスとして扱い、Transformerの自己注意機構を画像分類に適用する。十分な訓練データがあれば、畳み込みニューラルネットワーク (CNN) を凌駕する。
手法の全文を読む
会員限定
ログイン無料アカウントでログインすると、このセクションを読めます。
Method map
The neighbourhood of related methods — select a node to explore.
+27 more
出典
このページの引用方法
ScholarGate. (2026, June 1). Vision Transformer (ViT). ScholarGate. https://scholargate.app/ja/deep-learning/vision-transformer
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- 拡散モデル深層学習↔ compare
- Generative Adversarial Network深層学習↔ compare
- ランダムフォレスト機械学習↔ compare
- サポートベクターマシン(分類)機械学習↔ compare
- Variational Autoencoder深層学習↔ compare
この手法を参照する項目
BERTファインチューニングCLIPドメイン適応型Transformerドメイン適応型ビジョン・トランスフォーマー説明可能なVision TransformerファインチューニングされたVision TransformerGPTファインチューニング画像分類Kolmogorov-Arnold NetworksLoRAとPEFTMamba(ステート空間モデル)マスク化オートエンコーダ多言語Vision TransformerマルチモーダルBERTベース分類マルチモーダル自然言語処理マルチモーダル意味セグメンテーションマルチモーダル・トランスフォーマーマルチモーダルVision TransformerSegment Anything Model自己教師ありGAN (Self-supervised GAN)自己教師あり画像分類自己教師ありインスタンスセグメンテーション自己教師あり意味セグメンテーションSelf-supervised Vision TransformerSemi-supervised Vision TransformerSimCLR空間時間グラフ畳み込みネットワークSwin TransformerTimeGPTVision Mamba弱教師あり物体検出Weakly Supervised Vision Transformer