Machine learningDeep learning / NLP / CV

Multimodálny Transformer pre víziu

Multimodálny Transformer pre víziu (Multimodal ViT) rozširuje architektúru Transformer pre víziu tak, aby spoločne spracúval a zarovnával reprezentácie z viacerých modalít — typicky obrazov a textu — pomocou mechanizmov self-attention a cross-attention. Učením sa spoločných alebo zarovnaných priestorov vložení naprieč modalitami umožňuje úlohy ako vizuálne odpovedanie na otázky, vyhľadávanie obrazov podľa textu, vizuálne uzemnenie a popisovanie obrazov.

Otvoriť v MethodMindČoskoroVideoČoskoroStiahnuť snímky

Prečítať celú metódu

Len pre členov

Ak si chcete prečítať túto sekciu, prihláste sa s bezplatným účtom.

Prihlásiť sa

Mapa metód

Okolie príbuzných metód — vyberte uzol na preskúmanie.

Multimodálny Transformer pre víziu

Klasifikácia založená na…Jemne doladený Vision Tr…Klasifikácia obrazu Multimodálna klasifikáci…Vision Transformer Vysvetliteľný Vision Tra…Multilingual vision tran…Multimodálny difúzny mod…Multimodal Instance Segm…Multimodálne zosilňovaci…

+1 ďalších

Zdroje

Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. In International Conference on Learning Representations (ICLR). link ↗
Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. In Proceedings of the 38th International Conference on Machine Learning (ICML), PMLR 139. link ↗

Ako citovať túto stránku

ScholarGate. (2026, June 3). Multimodal Vision Transformer (Multimodal ViT). ScholarGate. https://scholargate.app/sk/deep-learning/multimodal-vision-transformer

Ktorá metóda?

Postavte túto metódu vedľa jej najbližších príbuzných a čítajte ich vedľa seba — knižnica vám knihy položí na stôl; voľba je na vás.

Klasifikácia založená na BERTHlboké učenie↔ porovnať
Jemne doladený Vision TransformerHlboké učenie↔ porovnať
Klasifikácia obrazuHlboké učenie↔ porovnať
Multimodálna klasifikácia založená na BERTHlboké učenie↔ porovnať
Vision TransformerHlboké učenie↔ porovnať

Porovnať vedľa seba →

Odkazujú sem

Vysvetliteľný Vision Transformer Multilingual vision transformer Multimodálny difúzny model Multimodal Instance Segmentation Multimodálne zosilňovacie učenie Samoučiaci sa Vision Transformer

Našli ste na tejto stránke chybu? Nahláste ju alebo navrhnite opravu →

Prečítať celú metódu

Mapa metód

Zdroje

Ako citovať túto stránku

Príbuzné metódy

Ktorá metóda?

Odkazujú sem