Machine learningDeep learning / NLP / CV

การสรุปความข้อความหลายรูปแบบ (Multimodal Text Summarization)

การสรุปความข้อความหลายรูปแบบเป็นการสร้างบทสรุปข้อความที่กระชับโดยการประมวลผลข้อมูลหลายรูปแบบพร้อมกัน ซึ่งโดยทั่วไปคือข้อความและรูปภาพ แต่ก็อาจรวมถึงเฟรมวิดีโอหรือเสียงด้วย โดยใช้โมเดลการเรียนรู้เชิงลึก (deep learning models) ที่สามารถเชื่อมโยงการนำเสนอข้อมูลภาพและการนำเสนอข้อมูลภาษา ผลลัพธ์ที่ได้คือบทสรุปที่เป็นภาษาธรรมชาติซึ่งจับใจความสำคัญจากข้อมูลทุกรูปแบบที่มีอยู่

เปิดใน MethodMindเร็ว ๆ นี้วิดีโอเร็ว ๆ นี้Download slides

อ่านวิธีฉบับเต็ม

สำหรับสมาชิกเท่านั้น

เข้าสู่ระบบด้วยบัญชีฟรีเพื่ออ่านส่วนนี้

เข้าสู่ระบบ

Method map

The neighbourhood of related methods — select a node to explore.

แหล่งอ้างอิง

  1. Zhu, J., Li, H., Liu, T., Zhou, Y., Zhang, J., & Zong, C. (2018). MSMO: Multimodal Summarization with Multimodal Output. Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing (EMNLP), 4154–4164. link
  2. Zhu, J., Zhou, Y., Zhang, J., Li, H., Zong, C., & Li, C. (2020). Multimodal Summarization with Guidance of Multimodal Reference. Proceedings of the AAAI Conference on Artificial Intelligence, 34(05), 9749–9756. link

วิธีอ้างอิงหน้านี้

ScholarGate. (2026, June 3). Multimodal Text Summarization (Cross-Modal Abstractive and Extractive Summarization). ScholarGate. https://scholargate.app/th/deep-learning/multimodal-text-summarization

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

ถูกอ้างอิงโดย

ScholarGateMultimodal Text Summarization (Multimodal Text Summarization (Cross-Modal Abstractive and Extractive Summarization)). สืบค้นเมื่อ 2026-06-15 จาก https://scholargate.app/th/deep-learning/multimodal-text-summarization · ชุดข้อมูล: https://doi.org/10.5281/zenodo.20539026