Machine learningDeep learning / NLP / CV

Multimodální Vision Transformer

Multimodální Vision Transformer (Multimodální ViT) rozšiřuje architekturu Vision Transformer pro společné zpracování a zarovnání reprezentací z více modalit — typicky obrazů a textu — pomocí mechanismů self-attention a cross-attention. Učením sdílených nebo zarovnaných vnořených prostorů napříč modalitami umožňuje úlohy jako vizuální odpovídání na otázky, vyhledávání obrazů podle textu, vizuální uzemnění a popisování obrazů.

Otevřít v MethodMindJiž brzyVideoJiž brzyDownload slides

Přečíst celou metodu

Pouze pro členy

Pro přečtení této sekce se přihlaste s bezplatným účtem.

Přihlásit se

Method map

The neighbourhood of related methods — select a node to explore.

Multimodální Vision Transformer

Klasifikace založená na…Dolaďovaný Vision Transf…Klasifikace obrazu Víceúčelová klasifikace…Vision Transformer Explainable Vision Trans…Vícejazyčný Vision Trans…Multimodální difuzní mod…Multimodální segmentace…Multimodální zpatné učení

+1 more

Zdroje

Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. In International Conference on Learning Representations (ICLR). link ↗
Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. In Proceedings of the 38th International Conference on Machine Learning (ICML), PMLR 139. link ↗

Jak citovat tuto stránku

ScholarGate. (2026, June 3). Multimodal Vision Transformer (Multimodal ViT). ScholarGate. https://scholargate.app/cs/deep-learning/multimodal-vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Klasifikace založená na BERTHluboké učení↔ compare
Dolaďovaný Vision TransformerHluboké učení↔ compare
Klasifikace obrazuHluboké učení↔ compare
Víceúčelová klasifikace založená na BERTHluboké učení↔ compare
Vision TransformerHluboké učení↔ compare

Compare side by side →

Odkazuje sem

Explainable Vision Transformer Vícejazyčný Vision Transformer Multimodální difuzní model Multimodální segmentace instancí Multimodální zpatné učení Samoučící se vidění Transformer

Našli jste na této stránce chybu? Nahlaste ji nebo navrhněte opravu →

Přečíst celou metodu

Method map

Zdroje

Jak citovat tuto stránku

Příbuzné metody

Which method?

Odkazuje sem