ScholarGate
Асистент
Machine learningDeep learning / NLP / CV

Мултимодална класификация на изображения

Мултимодалната класификация на изображения разширява стандартната визуална класификация чрез включване на допълнителни модалности — като текстови описания, аудио или структурирани метаданни — наред с визуалните характеристики. Отделни енкодери обработват всяка модалност, техните представяния се сливат и съвместен класификатор присвоява целевия етикет. Модели като CLIP демонстрират, че съгласуването на изображения и текст позволява класификация на изображения с нулев или малък брой примери (zero-shot и few-shot) в голям мащаб.

Отворете в MethodMindСкороВидеоСкороDownload slides

Прочетете целия метод

Само за членове

Влезте с безплатен профил, за да прочетете този раздел.

Вход

Method map

The neighbourhood of related methods — select a node to explore.

Източници

  1. Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning transferable visual models from natural language supervision. Proceedings of the 38th International Conference on Machine Learning (ICML), PMLR 139, 8748–8763. link
  2. Ngiam, J., Khosla, A., Kim, M., Nam, J., Lee, H., & Ng, A. Y. (2011). Multimodal deep learning. Proceedings of the 28th International Conference on Machine Learning (ICML), 689–696. link

Как да цитирате тази страница

ScholarGate. (2026, June 3). Multimodal Image Classification (Vision + Auxiliary Modality Fusion). ScholarGate. https://scholargate.app/bg/deep-learning/multimodal-image-classification

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Цитиран в

ScholarGateMultimodal Image Classification (Multimodal Image Classification (Vision + Auxiliary Modality Fusion)). Извлечено на 2026-06-15 от https://scholargate.app/bg/deep-learning/multimodal-image-classification · Набор от данни: https://doi.org/10.5281/zenodo.20539026