Machine learningDeep learning / NLP / CV

Multimodal Vision Transformer (Multimodal ViT)

Vision Transformer dzieli obraz na fragmenty (patches) i traktuje je jak słowa w zdaniu, przepuszczając je przez warstwy uwagi własnej. Rozszerzenie multimodalne dodaje drugi strumień dla innej modalności — najczęściej tekstu — i pozwala tym dwóm strumieniom na wzajemne zwracanie na siebie uwagi poprzez mechanizm uwagi krzyżowej. Tak jak BERT uczy się relacji między słowami, tak Multimodal ViT uczy się relacji między fragmentami wizualnymi a tokenami językowymi, dzięki czemu model może odpowiadać na pytania dotyczące obrazu, wyszukiwać pasujący opis lub lokalizować frazę w konkretnym regionie obrazu.

Otwórz w MethodMindWkrótceWideoWkrótceDownload slides

Przeczytaj pełny opis metody

Tylko dla członków

Zaloguj się na bezpłatne konto, aby przeczytać tę sekcję.

Zaloguj się

Method map

The neighbourhood of related methods — select a node to explore.

Multimodal Vision Transformer

Klasyfikacja oparta na B…Dostrojony Vision Transf…Klasyfikacja obrazów Klasyfikacja multimodaln…Vision Transformer Explainable Vision Trans…Wielojęzyczny Transforme…Model dyfuzyjny multimod…Segmentacja instancji mu…Uczenie ze wzmocnieniem…

+1 more

Źródła

Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. In International Conference on Learning Representations (ICLR). link ↗
Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. In Proceedings of the 38th International Conference on Machine Learning (ICML), PMLR 139. link ↗

Jak cytować tę stronę

ScholarGate. (2026, June 3). Multimodal Vision Transformer (Multimodal ViT). ScholarGate. https://scholargate.app/pl/deep-learning/multimodal-vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Klasyfikacja oparta na BERTUczenie głębokie↔ compare
Dostrojony Vision TransformerUczenie głębokie↔ compare
Klasyfikacja obrazówUczenie głębokie↔ compare
Klasyfikacja multimodalna oparta na BERTUczenie głębokie↔ compare
Vision TransformerUczenie głębokie↔ compare

Compare side by side →

Cytowana przez

Explainable Vision Transformer Wielojęzyczny Transformer Wizyjny Model dyfuzyjny multimodalny Segmentacja instancji multimodalnych Uczenie ze wzmocnieniem multimodalne Samonadzorowane Vision Transformer

Widzisz błąd na tej stronie? Zgłoś go lub zaproponuj poprawkę →

Przeczytaj pełny opis metody

Method map

Źródła

Jak cytować tę stronę

Metody pokrewne

Which method?

Cytowana przez