Vision Transformer con Supervisión Débil
El Vision Transformer con Supervisión Débil (WS-ViT) entrena un Vision Transformer con datos de imágenes que carecen de anotaciones precisas a nivel de píxel, utilizando en su lugar supervisión más barata y ruidosa, como etiquetas de clase a nivel de imagen, cuadros delimitadores o texto extraído de la web. El mecanismo de autoatención global del transformer lo hace especialmente capaz de localizar objetos y aprender características discriminatorias a partir de estas etiquetas incompletas.
Leer el método completo
Inicia sesión con una cuenta gratuita para leer esta sección.
Method map
The neighbourhood of related methods — select a node to explore.
Fuentes
- Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An image is worth 16x16 words: Transformers for image recognition at scale. In International Conference on Learning Representations (ICLR). link ↗
- Zhou, Z.-H. (2022). A brief introduction to weakly supervised learning. National Science Review, 5(1), 44–53. DOI: 10.1093/nsr/nwx106 ↗
Cómo citar esta página
ScholarGate. (2026, June 3). Weakly Supervised Vision Transformer (WS-ViT). ScholarGate. https://scholargate.app/es/deep-learning/weakly-supervised-vision-transformer
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Destilación de ConocimientoAprendizaje profundo↔ compare
- Aprendizaje autosupervisadoAprendizaje automático↔ compare
- Aprendizaje semisupervisadoAprendizaje automático↔ compare
- Vision TransformerAprendizaje profundo↔ compare
¿Has visto un problema en esta página? Infórmanos o sugiere una corrección →