ScholarGate
Asistent
Machine learningDeep learning / NLP / CV

Multimodálny Transformer pre víziu

Multimodálny Transformer pre víziu (Multimodal ViT) rozširuje architektúru Transformer pre víziu tak, aby spoločne spracúval a zarovnával reprezentácie z viacerých modalít — typicky obrazov a textu — pomocou mechanizmov self-attention a cross-attention. Učením sa spoločných alebo zarovnaných priestorov vložení naprieč modalitami umožňuje úlohy ako vizuálne odpovedanie na otázky, vyhľadávanie obrazov podľa textu, vizuálne uzemnenie a popisovanie obrazov.

Otvoriť v MethodMindČoskoroVideoČoskoroStiahnuť snímky

Prečítať celú metódu

Len pre členov

Ak si chcete prečítať túto sekciu, prihláste sa s bezplatným účtom.

Prihlásiť sa

Mapa metód

Okolie príbuzných metód — vyberte uzol na preskúmanie.

+1 ďalších

Zdroje

  1. Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. In International Conference on Learning Representations (ICLR). link
  2. Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. In Proceedings of the 38th International Conference on Machine Learning (ICML), PMLR 139. link

Ako citovať túto stránku

ScholarGate. (2026, June 3). Multimodal Vision Transformer (Multimodal ViT). ScholarGate. https://scholargate.app/sk/deep-learning/multimodal-vision-transformer

Ktorá metóda?

Postavte túto metódu vedľa jej najbližších príbuzných a čítajte ich vedľa seba — knižnica vám knihy položí na stôl; voľba je na vás.

Porovnať vedľa seba

Odkazujú sem

ScholarGateMultimodal Vision Transformer (Multimodal Vision Transformer (Multimodal ViT)). Získané 2026-06-15 z https://scholargate.app/sk/deep-learning/multimodal-vision-transformer · Dátová sada: https://doi.org/10.5281/zenodo.20539026