Vision Transformer tinh chỉnh
Vision Transformer tinh chỉnh (Fine-Tuned Vision Transformer) điều chỉnh một mô hình ViT lớn đã được huấn luyện trước — mô hình này chia hình ảnh thành các bản vá có kích thước cố định và xử lý chúng thông qua các lớp tự chú ý — cho một tác vụ phân loại hoặc nhận dạng hình ảnh mới bằng cách sử dụng một tập dữ liệu được gán nhãn tương đối nhỏ. Nó đạt được độ chính xác hiện đại trong thị giác máy tính bằng cách tận dụng các biểu diễn phong phú đã học được trong quá trình huấn luyện trước quy mô lớn.
Đọc toàn bộ phương pháp
Đăng nhập bằng tài khoản miễn phí để đọc phần này.
Bản đồ phương pháp
Lân cận của các phương pháp liên quan — chọn một nút để khám phá.
+4 nữa
Nguồn tài liệu
- Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. In International Conference on Learning Representations (ICLR 2021). link ↗
- Zhai, X., Kolesnikov, A., Houlsby, N., & Beyer, L. (2022). Scaling Vision Transformers. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2022), pp. 12104-12113. link ↗
Cách trích dẫn trang này
ScholarGate. (2026, June 3). Fine-Tuned Vision Transformer (ViT with Task-Specific Adaptation). ScholarGate. https://scholargate.app/vi/deep-learning/fine-tuned-vision-transformer
Phương pháp nào?
Đặt phương pháp này bên cạnh những phương pháp gần gũi nhất với nó và đọc chúng song song — thư viện bày sách lên bàn; lựa chọn là của bạn.
- Phân loại dựa trên BERTHọc sâu↔ so sánh
- Mạng nơ-ron tích chập tinh chỉnhHọc sâu↔ so sánh
- Phân loại ảnhHọc sâu↔ so sánh
- Phân đoạn ngữ nghĩaHọc sâu↔ so sánh
- Transformer Thị giácHọc sâu↔ so sánh
Được tham chiếu bởi
Phát hiện lỗi trên trang này? Báo cáo hoặc đề xuất chỉnh sửa →