Machine learningDeep learning / NLP / CV
ファインチューニングされたVision Transformer
ファインチューニングされたVision Transformerは、大規模に事前学習されたViTモデル(画像を固定サイズのパッチに分割し、自己注意層を介して処理する)を、比較的小規模なラベル付きデータセットを用いて、新しい画像分類または認識タスクに適応させます。大規模な事前学習中に学習された豊富な表現を活用することで、コンピュータビジョンにおいて最先端の精度を達成します。
手法の全文を読む
会員限定
ログイン無料アカウントでログインすると、このセクションを読めます。
手法マップ
関連する手法の近傍 — ノードを選択して探索できます。
他 4 件
出典
- Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. In International Conference on Learning Representations (ICLR 2021). link ↗
- Zhai, X., Kolesnikov, A., Houlsby, N., & Beyer, L. (2022). Scaling Vision Transformers. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2022), pp. 12104-12113. link ↗
このページの引用方法
ScholarGate. (2026, June 3). Fine-Tuned Vision Transformer (ViT with Task-Specific Adaptation). ScholarGate. https://scholargate.app/ja/deep-learning/fine-tuned-vision-transformer
どの手法を選ぶ?
この手法を最も近い類縁の手法と並べ、両者を見比べてください — ライブラリは本を机の上に並べるだけ。選ぶのはあなたです。
- BERTベースの分類深層学習↔ 比較
- ファインチューニングされた畳み込みニューラルネットワーク深層学習↔ 比較
- 画像分類深層学習↔ 比較
- セマンティックセグメンテーション深層学習↔ 比較
- ビジョントランスフォーマー深層学習↔ 比較