Machine learningDeep learning / NLP / CV

Vision Transformer con Supervisión Débil

El Vision Transformer con Supervisión Débil (WS-ViT) entrena un Vision Transformer con datos de imágenes que carecen de anotaciones precisas a nivel de píxel, utilizando en su lugar supervisión más barata y ruidosa, como etiquetas de clase a nivel de imagen, cuadros delimitadores o texto extraído de la web. El mecanismo de autoatención global del transformer lo hace especialmente capaz de localizar objetos y aprender características discriminatorias a partir de estas etiquetas incompletas.

Abrir en MethodMindPróximamenteVídeoPróximamenteDownload slides

Leer el método completo

Solo para miembros

Inicia sesión con una cuenta gratuita para leer esta sección.

Iniciar sesión

Method map

The neighbourhood of related methods — select a node to explore.

Fuentes

  1. Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An image is worth 16x16 words: Transformers for image recognition at scale. In International Conference on Learning Representations (ICLR). link
  2. Zhou, Z.-H. (2022). A brief introduction to weakly supervised learning. National Science Review, 5(1), 44–53. DOI: 10.1093/nsr/nwx106

Cómo citar esta página

ScholarGate. (2026, June 3). Weakly Supervised Vision Transformer (WS-ViT). ScholarGate. https://scholargate.app/es/deep-learning/weakly-supervised-vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side
ScholarGateWeakly supervised vision transformer (Weakly Supervised Vision Transformer (WS-ViT)). Recuperado el 2026-06-15 de https://scholargate.app/es/deep-learning/weakly-supervised-vision-transformer · Conjunto de datos: https://doi.org/10.5281/zenodo.20539026