ScholarGate
Ассистент
Machine learningDeep learning / NLP / CV

Трансформер зрения со слабой разметкой (WS-ViT)

Трансформер зрения со слабой разметкой (WS-ViT) обучается на данных изображений, которым не хватает точных аннотаций на уровне пикселей, вместо этого используются более дешевые, более шумные сигналы, такие как метки классов на уровне изображения, ограничивающие рамки или извлеченные из Интернета тексты. Механизм глобального самовнимания трансформера особенно хорошо подходит для локализации объектов и извлечения дискриминативных признаков из этих неполных меток.

Открыть в MethodMindСкороВидеоСкороDownload slides

Читать метод полностью

Только для участников

Войдите с бесплатным аккаунтом, чтобы прочитать этот раздел.

Войти

Method map

The neighbourhood of related methods — select a node to explore.

Источники

  1. Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An image is worth 16x16 words: Transformers for image recognition at scale. In International Conference on Learning Representations (ICLR). link
  2. Zhou, Z.-H. (2022). A brief introduction to weakly supervised learning. National Science Review, 5(1), 44–53. DOI: 10.1093/nsr/nwx106

Как цитировать эту страницу

ScholarGate. (2026, June 3). Weakly Supervised Vision Transformer (WS-ViT). ScholarGate. https://scholargate.app/ru/deep-learning/weakly-supervised-vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side
ScholarGateWeakly supervised vision transformer (Weakly Supervised Vision Transformer (WS-ViT)). Получено 2026-06-15 из https://scholargate.app/ru/deep-learning/weakly-supervised-vision-transformer · Набор данных: https://doi.org/10.5281/zenodo.20539026