Machine learningDeep learning / NLP / CV
マルチモーダルテキスト要約
マルチモーダルテキスト要約は、テキストと画像、あるいはビデオフレームや音声といった複数の入力モダリティを共同で処理し、視覚と言語の表現を整合させる深層学習モデルを用いて、簡潔なテキスト要約を生成する。出力は、利用可能な全てのモダリティから顕著な内容を捉えた自然言語の要約である。
手法の全文を読む
会員限定
ログイン無料アカウントでログインすると、このセクションを読めます。
Method map
The neighbourhood of related methods — select a node to explore.
出典
- Zhu, J., Li, H., Liu, T., Zhou, Y., Zhang, J., & Zong, C. (2018). MSMO: Multimodal Summarization with Multimodal Output. Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing (EMNLP), 4154–4164. link ↗
- Zhu, J., Zhou, Y., Zhang, J., Li, H., Zong, C., & Li, C. (2020). Multimodal Summarization with Guidance of Multimodal Reference. Proceedings of the AAAI Conference on Artificial Intelligence, 34(05), 9749–9756. link ↗
このページの引用方法
ScholarGate. (2026, June 3). Multimodal Text Summarization (Cross-Modal Abstractive and Extractive Summarization). ScholarGate. https://scholargate.app/ja/deep-learning/multimodal-text-summarization
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- BERTベースの分類深層学習↔ compare
- ファイン・チューニングによるテキスト要約深層学習↔ compare
- マルチモーダルBERTベース分類深層学習↔ compare
- マルチモーダル質問応答深層学習↔ compare
- マルチモーダル・トランスフォーマー深層学習↔ compare