Machine learningDeep learning / NLP / CV

Multimodální Vision Transformer

Multimodální Vision Transformer (Multimodální ViT) rozšiřuje architekturu Vision Transformer pro společné zpracování a zarovnání reprezentací z více modalit — typicky obrazů a textu — pomocí mechanismů self-attention a cross-attention. Učením sdílených nebo zarovnaných vnořených prostorů napříč modalitami umožňuje úlohy jako vizuální odpovídání na otázky, vyhledávání obrazů podle textu, vizuální uzemnění a popisování obrazů.

Otevřít v MethodMindJiž brzyVideoJiž brzyDownload slides

Přečíst celou metodu

Pouze pro členy

Pro přečtení této sekce se přihlaste s bezplatným účtem.

Přihlásit se

Method map

The neighbourhood of related methods — select a node to explore.

+1 more

Zdroje

  1. Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. In International Conference on Learning Representations (ICLR). link
  2. Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. In Proceedings of the 38th International Conference on Machine Learning (ICML), PMLR 139. link

Jak citovat tuto stránku

ScholarGate. (2026, June 3). Multimodal Vision Transformer (Multimodal ViT). ScholarGate. https://scholargate.app/cs/deep-learning/multimodal-vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Odkazuje sem

ScholarGateMultimodal Vision Transformer (Multimodal Vision Transformer (Multimodal ViT)). Získáno 2026-06-15 z https://scholargate.app/cs/deep-learning/multimodal-vision-transformer · Datová sada: https://doi.org/10.5281/zenodo.20539026