Machine learningDeep learning / NLP / CV

微调视觉Transformer

微调视觉Transformer（Fine-Tuned Vision Transformer）通过使用相对较小的标记数据集，将大型预训练的ViT模型——该模型将图像分割成固定大小的块并通过自注意力层进行处理——适配到新的图像分类或识别任务中。它通过利用大规模预训练期间学到的丰富表征，在计算机视觉领域实现了最先进的准确率。

在 MethodMind 中打开即将推出视频即将推出下载幻灯片

阅读完整方法

仅限会员

使用免费账户登录即可阅读本节。

方法图谱

相关方法的邻域——选择一个节点以展开探索。

微调视觉Transformer

[需翻译标题：BERT-based Classi…微调卷积神经网络图像分类语义分割 Vision Transformer 领域自适应视觉 Transformer 微调扩散模型微调生成对抗网络微调图像分类微调语义分割

另有 4 项

来源

Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. In International Conference on Learning Representations (ICLR 2021). link ↗
Zhai, X., Kolesnikov, A., Houlsby, N., & Beyer, L. (2022). Scaling Vision Transformers. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2022), pp. 12104-12113. link ↗

如何引用本页

ScholarGate. (2026, June 3). Fine-Tuned Vision Transformer (ViT with Task-Specific Adaptation). ScholarGate. https://scholargate.app/zh/deep-learning/fine-tuned-vision-transformer

选用哪种方法？

将本方法与其最相近的同类并置，并排研读——本馆将书籍铺陈于案上，取舍则由您定夺。

[需翻译标题：BERT-based Classification...]深度学习↔ 比较
微调卷积神经网络深度学习↔ 比较
图像分类深度学习↔ 比较
语义分割深度学习↔ 比较
Vision Transformer深度学习↔ 比较

并排比较 →

被引用于

领域自适应视觉 Transformer 微调卷积神经网络微调扩散模型微调生成对抗网络微调图像分类微调语义分割多模态视觉变换器自监督视觉Transformer 半监督视觉变换器迁移学习在图像分类中的应用

发现本页有问题？报告或提出修改建议 →