Machine learningDeep learning / NLP / CV

মাল্টিমোডাল ভিশন ট্রান্সফরমার

মাল্টিমোডাল ভিশন ট্রান্সফরমার (Multimodal ViT) হলো ভিশন ট্রান্সফরমার আর্কিটেকচারের একটি সম্প্রসারণ, যা স্ব-মনোযোগ (self-attention) এবং ক্রস-মনোযোগ (cross-attention) প্রক্রিয়ার মাধ্যমে একাধিক মাধ্যম — সাধারণত ছবি ও লেখা — থেকে প্রাপ্ত উপস্থাপনাগুলিকে যৌথভাবে প্রক্রিয়া করে এবং সারিবদ্ধ করে। বিভিন্ন মাধ্যমের মধ্যে ভাগ করা বা সারিবদ্ধ এম্বেডিং স্পেস শেখার মাধ্যমে এটি ভিজ্যুয়াল প্রশ্ন উত্তর, ছবি-লেখা পুনরুদ্ধার, ভিজ্যুয়াল গ্রাউন্ডিং এবং ছবি ক্যাপশনিংয়ের মতো কাজগুলি সক্ষম করে।

MethodMind-এ খুলুনশীঘ্রইভিডিওশীঘ্রইDownload slides

পুরো পদ্ধতিটি পড়ুন

শুধু সদস্যদের জন্য

এই অংশটি পড়তে বিনামূল্যের অ্যাকাউন্ট দিয়ে সাইন ইন করুন।

সাইন ইন করুন

Method map

The neighbourhood of related methods — select a node to explore.

মাল্টিমোডাল ভিশন ট্রান্সফরমার

BERT-ভিত্তিক শ্রেণিবিভাগ ফাইন-টিউনড ভিশন ট্রান্সফ…চিত্র শ্রেণীকরণ মাল্টিমোডাল BERT-ভিত্তিক…ভিশন ট্রান্সফরমার Explainable Vision Trans…বহুভাষিক ভিশন ট্রান্সফরম…মাল্টিমোডাল ডিফিউশন মডেল বহুমাত্রিক দৃষ্টান্ত বিভ…মাল্টিমোডাল রিইনফোর্সমেন…

+1 more

উৎস

Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. In International Conference on Learning Representations (ICLR). link ↗
Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. In Proceedings of the 38th International Conference on Machine Learning (ICML), PMLR 139. link ↗

এই পৃষ্ঠা কীভাবে উদ্ধৃত করবেন

ScholarGate. (2026, June 3). Multimodal Vision Transformer (Multimodal ViT). ScholarGate. https://scholargate.app/bn/deep-learning/multimodal-vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

BERT-ভিত্তিক শ্রেণিবিভাগগভীর শিখন↔ compare
ফাইন-টিউনড ভিশন ট্রান্সফরমারগভীর শিখন↔ compare
চিত্র শ্রেণীকরণগভীর শিখন↔ compare
মাল্টিমোডাল BERT-ভিত্তিক ক্লাসিফিকেশনগভীর শিখন↔ compare
ভিশন ট্রান্সফরমারগভীর শিখন↔ compare

Compare side by side →

যেখানে উদ্ধৃত

Explainable Vision Transformer বহুভাষিক ভিশন ট্রান্সফরমার মাল্টিমোডাল ডিফিউশন মডেল বহুমাত্রিক দৃষ্টান্ত বিভাজন মাল্টিমোডাল রিইনফোর্সমেন্ট লার্নিং Self-supervised Vision Transformer

এই পৃষ্ঠায় কোনো ত্রুটি চোখে পড়েছে? জানান বা সংশোধনের প্রস্তাব দিন →