Vision Transformer Giám sát Yếu (WS-ViT)
Vision Transformer Giám sát Yếu (WS-ViT) huấn luyện một Vision Transformer trên dữ liệu ảnh thiếu chú thích chính xác ở cấp độ pixel, thay vào đó sử dụng các tín hiệu giám sát rẻ hơn, nhiễu hơn như nhãn lớp cấp ảnh, hộp giới hạn hoặc văn bản thu thập từ web. Cơ chế tự chú ý toàn cục của transformer giúp nó đặc biệt có khả năng định vị đối tượng và học các đặc trưng phân biệt từ các nhãn không đầy đủ này.
Đọc toàn bộ phương pháp
Đăng nhập bằng tài khoản miễn phí để đọc phần này.
Method map
The neighbourhood of related methods — select a node to explore.
Nguồn tài liệu
- Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An image is worth 16x16 words: Transformers for image recognition at scale. In International Conference on Learning Representations (ICLR). link ↗
- Zhou, Z.-H. (2022). A brief introduction to weakly supervised learning. National Science Review, 5(1), 44–53. DOI: 10.1093/nsr/nwx106 ↗
Cách trích dẫn trang này
ScholarGate. (2026, June 3). Weakly Supervised Vision Transformer (WS-ViT). ScholarGate. https://scholargate.app/vi/deep-learning/weakly-supervised-vision-transformer
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Chưng cất tri thứcHọc sâu↔ compare
- Học tăng cường tự giám sátHọc máy↔ compare
- Học bán giám sátHọc máy↔ compare
- Transformer Thị giácHọc sâu↔ compare
Phát hiện lỗi trên trang này? Báo cáo hoặc đề xuất chỉnh sửa →