Machine learningDeep learning / NLP / CV

Vision Transformer Giám sát Yếu (WS-ViT)

Vision Transformer Giám sát Yếu (WS-ViT) huấn luyện một Vision Transformer trên dữ liệu ảnh thiếu chú thích chính xác ở cấp độ pixel, thay vào đó sử dụng các tín hiệu giám sát rẻ hơn, nhiễu hơn như nhãn lớp cấp ảnh, hộp giới hạn hoặc văn bản thu thập từ web. Cơ chế tự chú ý toàn cục của transformer giúp nó đặc biệt có khả năng định vị đối tượng và học các đặc trưng phân biệt từ các nhãn không đầy đủ này.

Mở trong MethodMindSắp ra mắtVideoSắp ra mắtDownload slides

Đọc toàn bộ phương pháp

Chỉ dành cho thành viên

Đăng nhập bằng tài khoản miễn phí để đọc phần này.

Đăng nhập

Method map

The neighbourhood of related methods — select a node to explore.

Nguồn tài liệu

  1. Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An image is worth 16x16 words: Transformers for image recognition at scale. In International Conference on Learning Representations (ICLR). link
  2. Zhou, Z.-H. (2022). A brief introduction to weakly supervised learning. National Science Review, 5(1), 44–53. DOI: 10.1093/nsr/nwx106

Cách trích dẫn trang này

ScholarGate. (2026, June 3). Weakly Supervised Vision Transformer (WS-ViT). ScholarGate. https://scholargate.app/vi/deep-learning/weakly-supervised-vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side
ScholarGateWeakly supervised vision transformer (Weakly Supervised Vision Transformer (WS-ViT)). Truy cập ngày 2026-06-15 từ https://scholargate.app/vi/deep-learning/weakly-supervised-vision-transformer · Bộ dữ liệu: https://doi.org/10.5281/zenodo.20539026