Machine learningDeep learning / NLP / CV

Мултимодална класификация на изображения

Мултимодалната класификация на изображения разширява стандартната визуална класификация чрез включване на допълнителни модалности — като текстови описания, аудио или структурирани метаданни — наред с визуалните характеристики. Отделни енкодери обработват всяка модалност, техните представяния се сливат и съвместен класификатор присвоява целевия етикет. Модели като CLIP демонстрират, че съгласуването на изображения и текст позволява класификация на изображения с нулев или малък брой примери (zero-shot и few-shot) в голям мащаб.

Отворете в MethodMindСкороВидеоСкороDownload slides

Прочетете целия метод

Само за членове

Влезте с безплатен профил, за да прочетете този раздел.

Вход

Method map

The neighbourhood of related methods — select a node to explore.

Мултимодална класификация на изображения

Фина настройка на класиф…Класификация на изображе…Мултимодална класификаци…Мултимодална детекция на…Мултимодални изреченски…Мултимодален Трансформер Многоезикова класификаци…

Източници

Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning transferable visual models from natural language supervision. Proceedings of the 38th International Conference on Machine Learning (ICML), PMLR 139, 8748–8763. link ↗
Ngiam, J., Khosla, A., Kim, M., Nam, J., Lee, H., & Ng, A. Y. (2011). Multimodal deep learning. Proceedings of the 28th International Conference on Machine Learning (ICML), 689–696. link ↗

Как да цитирате тази страница

ScholarGate. (2026, June 3). Multimodal Image Classification (Vision + Auxiliary Modality Fusion). ScholarGate. https://scholargate.app/bg/deep-learning/multimodal-image-classification

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Фина настройка на класификация на изображенияДълбоко обучение↔ compare
Класификация на изображенияДълбоко обучение↔ compare
Мултимодална класификация, базирана на BERTДълбоко обучение↔ compare
Мултимодална детекция на обектиДълбоко обучение↔ compare
Мултимодални изреченски вгражданияДълбоко обучение↔ compare
Мултимодален ТрансформерДълбоко обучение↔ compare

Compare side by side →

Цитиран в

Многоезикова класификация на изображения Мултимодална детекция на обекти

Забелязахте ли проблем на тази страница? Съобщете или предложете поправка →

Прочетете целия метод

Method map

Източници

Как да цитирате тази страница

Свързани методи

Which method?

Цитиран в