Machine learningDeep learning / NLP / CV

Multimodal Vision Transformer (Multimodal ViT)

Vision Transformer jakaa kuvan osiin (patch) ja käsittelee niitä kuin lauseen sanoja syöttämällä ne itsehuomiokerrosten läpi. Multimodaalinen laajennus lisää toisen virran toiselle modaliteetille – useimmiten tekstille – ja antaa näiden kahden virran huomioida toisiaan ristiinhuomiomekanismin avulla. Aivan kuten BERT oppii sanojen välisiä suhteita, Multimodal ViT oppii suhteita visuaalisten osien ja kielellisten tokenien välillä, jotta malli voi vastata kuvaan liittyviin kysymyksiin, hakea vastaavan kuvatekstin tai kohdistaa lauseen tiettyyn kuva-alueeseen.

Avaa sovelluksessa MethodMindTulossaVideoTulossaDownload slides

Lue koko menetelmä

Vain jäsenille

Kirjaudu sisään maksuttomalla tilillä lukeaksesi tämän osion.

Kirjaudu sisään

Method map

The neighbourhood of related methods — select a node to explore.

Multimodal Vision Transformer

BERT-pohjainen luokittelu Hienosäädetty Vision Tra…Kuvanluokittelu Monimuotoinen BERT-pohja…Vision Transformer Selitettävä Vision Trans…Monikielinen Vision Tran…Multimodaalinen diffuusi…Monimodaalinen instanssi…Monimodaalinen vahvistus…

+1 more

Lähteet

Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. In International Conference on Learning Representations (ICLR). link ↗
Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. In Proceedings of the 38th International Conference on Machine Learning (ICML), PMLR 139. link ↗

Näin viittaat tähän sivuun

ScholarGate. (2026, June 3). Multimodal Vision Transformer (Multimodal ViT). ScholarGate. https://scholargate.app/fi/deep-learning/multimodal-vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

BERT-pohjainen luokitteluSyväoppiminen↔ compare
Hienosäädetty Vision TransformerSyväoppiminen↔ compare
KuvanluokitteluSyväoppiminen↔ compare
Monimuotoinen BERT-pohjainen luokitteluSyväoppiminen↔ compare
Vision TransformerSyväoppiminen↔ compare

Compare side by side →

Tähän viittaavat

Selitettävä Vision Transformer Monikielinen Vision Transformer Multimodaalinen diffuusiomalli Monimodaalinen instanssisegmentointi Monimodaalinen vahvistusoppiminen Itseohjautuva Vision Transformer

Huomasitko virheen tällä sivulla? Ilmoita siitä tai ehdota korjausta →

Lue koko menetelmä

Method map

Lähteet

Näin viittaat tähän sivuun

Aiheeseen liittyvät menetelmät

Which method?

Tähän viittaavat