การสรุปความข้อความหลายรูปแบบ (Multimodal Text Summarization)
การสรุปความข้อความหลายรูปแบบเป็นการสร้างบทสรุปข้อความที่กระชับโดยการประมวลผลข้อมูลหลายรูปแบบพร้อมกัน ซึ่งโดยทั่วไปคือข้อความและรูปภาพ แต่ก็อาจรวมถึงเฟรมวิดีโอหรือเสียงด้วย โดยใช้โมเดลการเรียนรู้เชิงลึก (deep learning models) ที่สามารถเชื่อมโยงการนำเสนอข้อมูลภาพและการนำเสนอข้อมูลภาษา ผลลัพธ์ที่ได้คือบทสรุปที่เป็นภาษาธรรมชาติซึ่งจับใจความสำคัญจากข้อมูลทุกรูปแบบที่มีอยู่
อ่านวิธีฉบับเต็ม
เข้าสู่ระบบด้วยบัญชีฟรีเพื่ออ่านส่วนนี้
Method map
The neighbourhood of related methods — select a node to explore.
แหล่งอ้างอิง
- Zhu, J., Li, H., Liu, T., Zhou, Y., Zhang, J., & Zong, C. (2018). MSMO: Multimodal Summarization with Multimodal Output. Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing (EMNLP), 4154–4164. link ↗
- Zhu, J., Zhou, Y., Zhang, J., Li, H., Zong, C., & Li, C. (2020). Multimodal Summarization with Guidance of Multimodal Reference. Proceedings of the AAAI Conference on Artificial Intelligence, 34(05), 9749–9756. link ↗
วิธีอ้างอิงหน้านี้
ScholarGate. (2026, June 3). Multimodal Text Summarization (Cross-Modal Abstractive and Extractive Summarization). ScholarGate. https://scholargate.app/th/deep-learning/multimodal-text-summarization
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- การจำแนกประเภทโดยใช้ BERTการเรียนรู้เชิงลึก↔ compare
- การสรุปความข้อความแบบปรับละเอียดการเรียนรู้เชิงลึก↔ compare
- การจำแนกประเภทแบบหลายรูปแบบโดยใช้ BERTการเรียนรู้เชิงลึก↔ compare
- การตอบคำถามหลายรูปแบบการเรียนรู้เชิงลึก↔ compare
- Multimodal Transformerการเรียนรู้เชิงลึก↔ compare