ScholarGate
Assistent
Machine learningDeep learning / NLP / CV

Multimodal tekstoppsummering

Multimodal tekstoppsummering genererer et konsist sammendrag ved å behandle flere input-modaliteter – oftest tekst og bilder, men også videobilder eller lyd – ved hjelp av dyp læringsmodeller som justerer visuelle og lingvistiske representasjoner. Utdata er et sammendrag på naturlig språk som fanger opp det mest sentrale innholdet fra alle tilgjengelige modaliteter.

Åpne i MethodMindSnartVideoSnartDownload slides

Les hele metoden

Kun for medlemmer

Logg inn med en gratis konto for å lese denne delen.

Logg inn

Method map

The neighbourhood of related methods — select a node to explore.

Kilder

  1. Zhu, J., Li, H., Liu, T., Zhou, Y., Zhang, J., & Zong, C. (2018). MSMO: Multimodal Summarization with Multimodal Output. Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing (EMNLP), 4154–4164. link
  2. Zhu, J., Zhou, Y., Zhang, J., Li, H., Zong, C., & Li, C. (2020). Multimodal Summarization with Guidance of Multimodal Reference. Proceedings of the AAAI Conference on Artificial Intelligence, 34(05), 9749–9756. link

Slik siterer du denne siden

ScholarGate. (2026, June 3). Multimodal Text Summarization (Cross-Modal Abstractive and Extractive Summarization). ScholarGate. https://scholargate.app/no/deep-learning/multimodal-text-summarization

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Referert av

ScholarGateMultimodal Text Summarization (Multimodal Text Summarization (Cross-Modal Abstractive and Extractive Summarization)). Hentet 2026-06-15 fra https://scholargate.app/no/deep-learning/multimodal-text-summarization · Datasett: https://doi.org/10.5281/zenodo.20539026