Machine learningDeep learning / NLP / CV

マルチモーダル画像分類

マルチモーダル画像分類は、標準的な視覚分類を拡張し、画像特徴に加えてテキストキャプション、音声、構造化メタデータなどの追加モダリティを組み込みます。各モダリティは個別のエンコーダによって処理され、それらの表現が融合され、結合された分類器がターゲットラベルを割り当てます。CLIPのようなモデルは、画像とテキストのアラインメントが大規模なゼロショットおよびフューショット画像分類を可能にすることを示しています。

MethodMindで開く近日公開動画近日公開Download slides

手法の全文を読む

会員限定

無料アカウントでログインすると、このセクションを読めます。

ログイン

Method map

The neighbourhood of related methods — select a node to explore.

出典

  1. Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning transferable visual models from natural language supervision. Proceedings of the 38th International Conference on Machine Learning (ICML), PMLR 139, 8748–8763. link
  2. Ngiam, J., Khosla, A., Kim, M., Nam, J., Lee, H., & Ng, A. Y. (2011). Multimodal deep learning. Proceedings of the 28th International Conference on Machine Learning (ICML), 689–696. link

このページの引用方法

ScholarGate. (2026, June 3). Multimodal Image Classification (Vision + Auxiliary Modality Fusion). ScholarGate. https://scholargate.app/ja/deep-learning/multimodal-image-classification

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

この手法を参照する項目

ScholarGateMultimodal Image Classification (Multimodal Image Classification (Vision + Auxiliary Modality Fusion)). 2026-06-15に以下より取得 https://scholargate.app/ja/deep-learning/multimodal-image-classification · データセット: https://doi.org/10.5281/zenodo.20539026