Machine learningDeep learning / NLP / CV

マルチモーダルVision Transformer

マルチモーダルVision Transformer(Multimodal ViT)は、Vision Transformerアーキテクチャを拡張し、自己注意機構と交差注意機構を用いて、複数のモダリティ(典型的には画像とテキスト)からの表現を共同で処理し、整合させます。モダリティ間で共有または整合された埋め込み空間を学習することで、視覚的質問応答、画像-テキスト検索、視覚的グラウンディング、画像キャプション生成などのタスクを可能にします。

MethodMindで開く近日公開動画近日公開Download slides

手法の全文を読む

会員限定

無料アカウントでログインすると、このセクションを読めます。

ログイン

Method map

The neighbourhood of related methods — select a node to explore.

+1 more

出典

  1. Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. In International Conference on Learning Representations (ICLR). link
  2. Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. In Proceedings of the 38th International Conference on Machine Learning (ICML), PMLR 139. link

このページの引用方法

ScholarGate. (2026, June 3). Multimodal Vision Transformer (Multimodal ViT). ScholarGate. https://scholargate.app/ja/deep-learning/multimodal-vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

この手法を参照する項目

ScholarGateMultimodal Vision Transformer (Multimodal Vision Transformer (Multimodal ViT)). 2026-06-15に以下より取得 https://scholargate.app/ja/deep-learning/multimodal-vision-transformer · データセット: https://doi.org/10.5281/zenodo.20539026