ScholarGate
ผู้ช่วย
Process / pipeline

การประมวลผลภาษาธรรมชาติแบบหลายรูปแบบ — การทำความเข้าใจภาพและภาษา

การประมวลผลภาษาธรรมชาติแบบหลายรูปแบบ (Multimodal NLP) เป็นกลุ่มของไปป์ไลน์การประมวลผลภาษาธรรมชาติที่รวมข้อความเข้ากับข้อมูลรูปแบบอื่นอย่างน้อยหนึ่งรูปแบบ ซึ่งโดยทั่วไปคือรูปภาพ แต่ก็รวมถึงเสียงและวิดีโอด้วย เพื่อทำงานด้านการทำความเข้าใจและการสร้างข้อความ เช่น การตอบคำถามเชิงทัศน์ (visual question answering) การสร้างคำบรรยายภาพ (image captioning) และการรู้จำอารมณ์แบบหลายรูปแบบ (multimodal sentiment recognition) สาขานี้ได้พัฒนามาถึงรูปแบบปัจจุบันด้วย CLIP (Radford et al., 2021) และได้ก้าวหน้าผ่านสถาปัตยกรรมต่างๆ เช่น BLIP-2 (Li et al., 2023) ซึ่งเชื่อมต่อตัวเข้ารหัสภาพแบบตรึง (frozen image encoders) และแบบจำลองภาษาขนาดใหญ่

เปิดใน MethodMindเร็ว ๆ นี้วิดีโอเร็ว ๆ นี้ดาวน์โหลดสไลด์

อ่านวิธีฉบับเต็ม

สำหรับสมาชิกเท่านั้น

เข้าสู่ระบบด้วยบัญชีฟรีเพื่ออ่านส่วนนี้

เข้าสู่ระบบ

แผนที่ระเบียบวิธี

ย่านของระเบียบวิธีที่เกี่ยวข้องกัน — เลือกโหนดเพื่อสำรวจ

แหล่งอ้างอิง

  1. Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning (ICML), 8748–8763. link
  2. Li, J., Li, D., Savarese, S., & Hoi, S. (2023). BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. Proceedings of the 40th International Conference on Machine Learning (ICML), 19730–19742. link

วิธีอ้างอิงหน้านี้

ScholarGate. (2026, June 1). Multimodal Natural Language Processing. ScholarGate. https://scholargate.app/th/text-mining/multimodal-nlp

ระเบียบวิธีใด?

วางระเบียบวิธีนี้เคียงข้างระเบียบวิธีใกล้เคียงที่สุด แล้วอ่านเปรียบเทียบกัน — คลังวางหนังสือไว้บนโต๊ะให้แล้ว ส่วนการเลือกเป็นของท่าน

เปรียบเทียบเคียงข้างกัน
ScholarGateMultimodal NLP (Multimodal Natural Language Processing). สืบค้นเมื่อ 2026-06-15 จาก https://scholargate.app/th/text-mining/multimodal-nlp · ชุดข้อมูล: https://doi.org/10.5281/zenodo.20539026