ScholarGate
Assistent
Machine learningDeep learning / NLP / CV

Schwach überwachter Vision Transformer (WS-ViT)

Die Pixel-Level-Annotation von medizinischen Scans oder großen Bildarchiven ist teuer und langsam. Schwache Supervision ersetzt exakte Labels durch Signale, die günstig zu erhalten sind – bildbezogene Tags, Bildunterschriften, verrauschte, von Crowdsourcing stammende Annotationen – und akzeptiert, dass diese Signale unvollkommen sind. Vision Transformer eignen sich gut für dieses Szenario, da ihre Self-Attention-Köpfe lernen, entfernte Bildpatches zu verknüpfen und zu entdecken, wo sich relevante Merkmale konzentrieren, ohne dass genaue Positionen angegeben werden. Das Modell lernt, 'auf die richtigen Stellen zu schauen', nur geleitet von lockeren Signalen, was den Annotationsaufwand reduziert, ohne zu viel Genauigkeit zu opfern.

In MethodMind öffnenDemnächstVideoDemnächstDownload slides

Die vollständige Methode lesen

Nur für Mitglieder

Melden Sie sich mit einem kostenlosen Konto an, um diesen Abschnitt zu lesen.

Anmelden

Method map

The neighbourhood of related methods — select a node to explore.

Quellen

  1. Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An image is worth 16x16 words: Transformers for image recognition at scale. In International Conference on Learning Representations (ICLR). link
  2. Zhou, Z.-H. (2022). A brief introduction to weakly supervised learning. National Science Review, 5(1), 44–53. DOI: 10.1093/nsr/nwx106

So zitieren Sie diese Seite

ScholarGate. (2026, June 3). Weakly Supervised Vision Transformer (WS-ViT). ScholarGate. https://scholargate.app/de/deep-learning/weakly-supervised-vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side
ScholarGateWeakly supervised vision transformer (Weakly Supervised Vision Transformer (WS-ViT)). Abgerufen am 2026-06-15 von https://scholargate.app/de/deep-learning/weakly-supervised-vision-transformer · Datensatz: https://doi.org/10.5281/zenodo.20539026