طبقهبندی تصاویر چندوجهی
طبقهبندی تصاویر چندوجهی، طبقهبندی بصری استاندارد را با گنجاندن وجههای اضافی - مانند شرحهای متنی، صوتی، یا فرادادههای ساختاریافته - در کنار ویژگیهای تصویر گسترش میدهد. رمزگذارهای جداگانه هر وجه را پردازش میکنند، نمایشهای آنها ادغام میشوند و یک طبقهبند مشترک برچسب هدف را اختصاص میدهد. مدلهایی مانند CLIP نشان میدهند که همترازی تصویر-متن، طبقهبندی تصویر بدون نمونه (zero-shot) و با نمونههای کم (few-shot) را در مقیاس بزرگ امکانپذیر میسازد.
مطالعهٔ کامل روش
برای خواندن این بخش با حساب رایگان وارد شوید.
Method map
The neighbourhood of related methods — select a node to explore.
منابع
- Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning transferable visual models from natural language supervision. Proceedings of the 38th International Conference on Machine Learning (ICML), PMLR 139, 8748–8763. link ↗
- Ngiam, J., Khosla, A., Kim, M., Nam, J., Lee, H., & Ng, A. Y. (2011). Multimodal deep learning. Proceedings of the 28th International Conference on Machine Learning (ICML), 689–696. link ↗
نحوهٔ استناد به این صفحه
ScholarGate. (2026, June 3). Multimodal Image Classification (Vision + Auxiliary Modality Fusion). ScholarGate. https://scholargate.app/fa/deep-learning/multimodal-image-classification
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- طبقهبندی تصویر با تنظیم دقیق (Fine-Tuned Image Classification)یادگیری عمیق↔ compare
- طبقهبندی تصویریادگیری عمیق↔ compare
- طبقهبندی چندوجهی مبتنی بر BERTیادگیری عمیق↔ compare
- آشکارسازی اشیاء چندوجهییادگیری عمیق↔ compare
- تعبیههای جملات چندوجهییادگیری عمیق↔ compare
- ترانسفورمر چندوجهییادگیری عمیق↔ compare
ارجاعشده در
در این صفحه مشکلی دیدید؟ گزارش دهید یا اصلاحی پیشنهاد کنید →