Machine learningDeep learning / NLP / CV

マルチモーダルテキスト要約

マルチモーダルテキスト要約は、テキストと画像、あるいはビデオフレームや音声といった複数の入力モダリティを共同で処理し、視覚と言語の表現を整合させる深層学習モデルを用いて、簡潔なテキスト要約を生成する。出力は、利用可能な全てのモダリティから顕著な内容を捉えた自然言語の要約である。

MethodMindで開く近日公開動画近日公開Download slides

手法の全文を読む

会員限定

無料アカウントでログインすると、このセクションを読めます。

ログイン

Method map

The neighbourhood of related methods — select a node to explore.

出典

  1. Zhu, J., Li, H., Liu, T., Zhou, Y., Zhang, J., & Zong, C. (2018). MSMO: Multimodal Summarization with Multimodal Output. Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing (EMNLP), 4154–4164. link
  2. Zhu, J., Zhou, Y., Zhang, J., Li, H., Zong, C., & Li, C. (2020). Multimodal Summarization with Guidance of Multimodal Reference. Proceedings of the AAAI Conference on Artificial Intelligence, 34(05), 9749–9756. link

このページの引用方法

ScholarGate. (2026, June 3). Multimodal Text Summarization (Cross-Modal Abstractive and Extractive Summarization). ScholarGate. https://scholargate.app/ja/deep-learning/multimodal-text-summarization

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

この手法を参照する項目

ScholarGateMultimodal Text Summarization (Multimodal Text Summarization (Cross-Modal Abstractive and Extractive Summarization)). 2026-06-15に以下より取得 https://scholargate.app/ja/deep-learning/multimodal-text-summarization · データセット: https://doi.org/10.5281/zenodo.20539026