ScholarGate
アシスタント
Process / pipeline

マルチモーダル自然言語処理 — ビジョン言語理解

マルチモーダル自然言語処理(Multimodal NLP)は、テキストと1つ以上の追加データモダリティ(最も一般的には画像、しかし音声や動画も含む)を組み合わせて、ビジュアル質問応答、画像キャプション生成、マルチモーダル感情認識などの理解および生成タスクを実行する、自然言語処理パイプラインの一群である。この分野は、CLIP(Radford et al., 2021)によって現代的な形態を得て、その後、固定された画像エンコーダと大規模言語モデルを橋渡しするBLIP-2(Li et al., 2023)のようなアーキテクチャを通じて進歩してきた。

MethodMindで開く近日公開動画近日公開Download slides

手法の全文を読む

会員限定

無料アカウントでログインすると、このセクションを読めます。

ログイン

Method map

The neighbourhood of related methods — select a node to explore.

出典

  1. Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning (ICML), 8748–8763. link
  2. Li, J., Li, D., Savarese, S., & Hoi, S. (2023). BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. Proceedings of the 40th International Conference on Machine Learning (ICML), 19730–19742. link

このページの引用方法

ScholarGate. (2026, June 1). Multimodal Natural Language Processing. ScholarGate. https://scholargate.app/ja/text-mining/multimodal-nlp

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side
ScholarGateMultimodal NLP (Multimodal Natural Language Processing). 2026-06-15に以下より取得 https://scholargate.app/ja/text-mining/multimodal-nlp · データセット: https://doi.org/10.5281/zenodo.20539026