Machine learningDeep learning / NLP / CV

ทรานส์ฟอร์มเมอร์วิสัยทัศน์หลายรูปแบบ

ทรานส์ฟอร์มเมอร์วิสัยทัศน์หลายรูปแบบ (Multimodal ViT) ขยายสถาปัตยกรรมทรานส์ฟอร์มเมอร์วิสัยทัศน์เพื่อประมวลผลและจัดตำแหน่งการแสดงแทนจากหลายรูปแบบพร้อมกัน โดยทั่วไปคือรูปภาพและข้อความ โดยใช้กลไกการใส่ใจตนเอง (self-attention) และการใส่ใจข้าม (cross-attention) ด้วยการเรียนรู้ปริภูมิฝังตัว (embedding space) ที่ใช้ร่วมกันหรือจัดตำแหน่งกันข้ามรูปแบบ ทำให้สามารถทำงานต่างๆ ได้ เช่น การตอบคำถามเกี่ยวกับรูปภาพ การดึงข้อมูลรูปภาพ-ข้อความ การลงจุดข้อความในรูปภาพ และการสร้างคำบรรยายรูปภาพ

เปิดใน MethodMindเร็ว ๆ นี้วิดีโอเร็ว ๆ นี้Download slides

อ่านวิธีฉบับเต็ม

สำหรับสมาชิกเท่านั้น

เข้าสู่ระบบด้วยบัญชีฟรีเพื่ออ่านส่วนนี้

เข้าสู่ระบบ

Method map

The neighbourhood of related methods — select a node to explore.

+1 more

แหล่งอ้างอิง

  1. Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. In International Conference on Learning Representations (ICLR). link
  2. Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. In Proceedings of the 38th International Conference on Machine Learning (ICML), PMLR 139. link

วิธีอ้างอิงหน้านี้

ScholarGate. (2026, June 3). Multimodal Vision Transformer (Multimodal ViT). ScholarGate. https://scholargate.app/th/deep-learning/multimodal-vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

ถูกอ้างอิงโดย

ScholarGateMultimodal Vision Transformer (Multimodal Vision Transformer (Multimodal ViT)). สืบค้นเมื่อ 2026-06-15 จาก https://scholargate.app/th/deep-learning/multimodal-vision-transformer · ชุดข้อมูล: https://doi.org/10.5281/zenodo.20539026