Machine learningDeep learning / NLP / CV

Vision Transformer tự giám sát

Vision Transformer tự giám sát (SSL-ViT) áp dụng các mục tiêu tiền huấn luyện tự giám sát — như dự đoán các mảng bị che (MAE) hoặc tự chưng cất không nhãn (DINO) — cho kiến trúc Vision Transformer, cho phép học các biểu diễn hình ảnh mạnh mẽ từ các kho ảnh lớn không nhãn trước khi tinh chỉnh theo tác vụ cụ thể.

Mở trong MethodMindSắp ra mắtVideoSắp ra mắtDownload slides

Đọc toàn bộ phương pháp

Chỉ dành cho thành viên

Đăng nhập bằng tài khoản miễn phí để đọc phần này.

Đăng nhập

Method map

The neighbourhood of related methods — select a node to explore.

Nguồn tài liệu

  1. Caron, M., Touvron, H., Misra, I., Jegou, H., Mairal, J., Bojanowski, P., & Joulin, A. (2021). Emerging Properties in Self-Supervised Vision Transformers. Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 9650–9660. link
  2. He, K., Chen, X., Xie, S., Li, Y., Dollar, P., & Girshick, R. (2022). Masked Autoencoders Are Scalable Vision Learners. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 16000–16009. link

Cách trích dẫn trang này

ScholarGate. (2026, June 3). Self-supervised Vision Transformer (SSL-ViT). ScholarGate. https://scholargate.app/vi/deep-learning/self-supervised-vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Được tham chiếu bởi

ScholarGateSelf-supervised Vision Transformer (Self-supervised Vision Transformer (SSL-ViT)). Truy cập ngày 2026-06-15 từ https://scholargate.app/vi/deep-learning/self-supervised-vision-transformer · Bộ dữ liệu: https://doi.org/10.5281/zenodo.20539026