Трансформер зрения со слабой разметкой (WS-ViT)
Трансформер зрения со слабой разметкой (WS-ViT) обучается на данных изображений, которым не хватает точных аннотаций на уровне пикселей, вместо этого используются более дешевые, более шумные сигналы, такие как метки классов на уровне изображения, ограничивающие рамки или извлеченные из Интернета тексты. Механизм глобального самовнимания трансформера особенно хорошо подходит для локализации объектов и извлечения дискриминативных признаков из этих неполных меток.
Читать метод полностью
Войдите с бесплатным аккаунтом, чтобы прочитать этот раздел.
Method map
The neighbourhood of related methods — select a node to explore.
Источники
- Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An image is worth 16x16 words: Transformers for image recognition at scale. In International Conference on Learning Representations (ICLR). link ↗
- Zhou, Z.-H. (2022). A brief introduction to weakly supervised learning. National Science Review, 5(1), 44–53. DOI: 10.1093/nsr/nwx106 ↗
Как цитировать эту страницу
ScholarGate. (2026, June 3). Weakly Supervised Vision Transformer (WS-ViT). ScholarGate. https://scholargate.app/ru/deep-learning/weakly-supervised-vision-transformer
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Дистилляция знанийГлубокое обучение↔ compare
- Самообучение с учителемМашинное обучение↔ compare
- Обучение с частичной разметкойМашинное обучение↔ compare
- Vision TransformerГлубокое обучение↔ compare
Нашли ошибку на этой странице? Сообщите о ней или предложите исправление →