মাল্টিমোডাল ভিশন ট্রান্সফরমার
মাল্টিমোডাল ভিশন ট্রান্সফরমার (Multimodal ViT) হলো ভিশন ট্রান্সফরমার আর্কিটেকচারের একটি সম্প্রসারণ, যা স্ব-মনোযোগ (self-attention) এবং ক্রস-মনোযোগ (cross-attention) প্রক্রিয়ার মাধ্যমে একাধিক মাধ্যম — সাধারণত ছবি ও লেখা — থেকে প্রাপ্ত উপস্থাপনাগুলিকে যৌথভাবে প্রক্রিয়া করে এবং সারিবদ্ধ করে। বিভিন্ন মাধ্যমের মধ্যে ভাগ করা বা সারিবদ্ধ এম্বেডিং স্পেস শেখার মাধ্যমে এটি ভিজ্যুয়াল প্রশ্ন উত্তর, ছবি-লেখা পুনরুদ্ধার, ভিজ্যুয়াল গ্রাউন্ডিং এবং ছবি ক্যাপশনিংয়ের মতো কাজগুলি সক্ষম করে।
পুরো পদ্ধতিটি পড়ুন
এই অংশটি পড়তে বিনামূল্যের অ্যাকাউন্ট দিয়ে সাইন ইন করুন।
Method map
The neighbourhood of related methods — select a node to explore.
+1 more
উৎস
- Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. In International Conference on Learning Representations (ICLR). link ↗
- Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. In Proceedings of the 38th International Conference on Machine Learning (ICML), PMLR 139. link ↗
এই পৃষ্ঠা কীভাবে উদ্ধৃত করবেন
ScholarGate. (2026, June 3). Multimodal Vision Transformer (Multimodal ViT). ScholarGate. https://scholargate.app/bn/deep-learning/multimodal-vision-transformer
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- BERT-ভিত্তিক শ্রেণিবিভাগগভীর শিখন↔ compare
- ফাইন-টিউনড ভিশন ট্রান্সফরমারগভীর শিখন↔ compare
- চিত্র শ্রেণীকরণগভীর শিখন↔ compare
- মাল্টিমোডাল BERT-ভিত্তিক ক্লাসিফিকেশনগভীর শিখন↔ compare
- ভিশন ট্রান্সফরমারগভীর শিখন↔ compare
যেখানে উদ্ধৃত
এই পৃষ্ঠায় কোনো ত্রুটি চোখে পড়েছে? জানান বা সংশোধনের প্রস্তাব দিন →