বহুমodal চিত্র শ্রেণীবিভাগ
বহুমodal চিত্র শ্রেণীবিভাগ চিত্র বৈশিষ্ট্যগুলির পাশাপাশি অতিরিক্ত মোডালিটি — যেমন পাঠ্য ক্যাপশন, অডিও, বা কাঠামোগত মেটাডেটা — অন্তর্ভুক্ত করে প্রমিত ভিজ্যুয়াল শ্রেণীবিভাগকে প্রসারিত করে। পৃথক এনকোডার প্রতিটি মোডালিটি প্রক্রিয়া করে, তাদের উপস্থাপনাগুলি একত্রিত করা হয় এবং একটি যৌথ শ্রেণীবিভাগকারী লক্ষ্য লেবেল নির্ধারণ করে। CLIP-এর মতো মডেলগুলি প্রদর্শন করে যে চিত্র–পাঠ্য প্রান্তিককরণ বৃহৎ পরিসরে শূন্য-শট এবং অল্প-শট চিত্র শ্রেণীবিভাগ সক্ষম করে।
পুরো পদ্ধতিটি পড়ুন
এই অংশটি পড়তে বিনামূল্যের অ্যাকাউন্ট দিয়ে সাইন ইন করুন।
Method map
The neighbourhood of related methods — select a node to explore.
উৎস
- Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning transferable visual models from natural language supervision. Proceedings of the 38th International Conference on Machine Learning (ICML), PMLR 139, 8748–8763. link ↗
- Ngiam, J., Khosla, A., Kim, M., Nam, J., Lee, H., & Ng, A. Y. (2011). Multimodal deep learning. Proceedings of the 28th International Conference on Machine Learning (ICML), 689–696. link ↗
এই পৃষ্ঠা কীভাবে উদ্ধৃত করবেন
ScholarGate. (2026, June 3). Multimodal Image Classification (Vision + Auxiliary Modality Fusion). ScholarGate. https://scholargate.app/bn/deep-learning/multimodal-image-classification
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- সূক্ষ্ম-সমন্বিত চিত্র শ্রেণিবিন্যাসগভীর শিখন↔ compare
- চিত্র শ্রেণীকরণগভীর শিখন↔ compare
- মাল্টিমোডাল BERT-ভিত্তিক ক্লাসিফিকেশনগভীর শিখন↔ compare
- মাল্টিমোডাল অবজেক্ট ডিটেকশনগভীর শিখন↔ compare
- মাল্টিমোডাল বাক্য এমবেডিংগভীর শিখন↔ compare
- মাল্টিমোডাল ট্রান্সফর্মারগভীর শিখন↔ compare
যেখানে উদ্ধৃত
এই পৃষ্ঠায় কোনো ত্রুটি চোখে পড়েছে? জানান বা সংশোধনের প্রস্তাব দিন →