Machine learningDeep learning / NLP / CV

Multimodální klasifikace obrazu

Multimodální klasifikace obrazu rozšiřuje standardní vizuální klasifikaci o začlenění dodatečných modalit – jako jsou textové popisky, zvuk nebo strukturovaná metadata – vedle obrazových příznaků. Samostatné enkodéry zpracovávají každou modalitu, jejich reprezentace jsou sloučeny a společný klasifikátor přiřazuje cílový popisek. Modely jako CLIP demonstrují, že zarovnání obrazu a textu umožňuje klasifikaci obrazu v režimu zero-shot a few-shot v rozsáhlém měřítku.

Otevřít v MethodMindJiž brzyVideoJiž brzyDownload slides

Přečíst celou metodu

Pouze pro členy

Pro přečtení této sekce se přihlaste s bezplatným účtem.

Přihlásit se

Method map

The neighbourhood of related methods — select a node to explore.

Multimodální klasifikace obrazu

Dolaďování klasifikace o…Klasifikace obrazu Víceúčelová klasifikace…Multimodální detekce obj…Vícemodální vnoření vět…Multimodální Transformer Vícejazyčná klasifikace…

Zdroje

Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning transferable visual models from natural language supervision. Proceedings of the 38th International Conference on Machine Learning (ICML), PMLR 139, 8748–8763. link ↗
Ngiam, J., Khosla, A., Kim, M., Nam, J., Lee, H., & Ng, A. Y. (2011). Multimodal deep learning. Proceedings of the 28th International Conference on Machine Learning (ICML), 689–696. link ↗

Jak citovat tuto stránku

ScholarGate. (2026, June 3). Multimodal Image Classification (Vision + Auxiliary Modality Fusion). ScholarGate. https://scholargate.app/cs/deep-learning/multimodal-image-classification

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Dolaďování klasifikace obrazuHluboké učení↔ compare
Klasifikace obrazuHluboké učení↔ compare
Víceúčelová klasifikace založená na BERTHluboké učení↔ compare
Multimodální detekce objektůHluboké učení↔ compare
Vícemodální vnoření vět (Multimodal Sentence Embeddings)Hluboké učení↔ compare
Multimodální TransformerHluboké učení↔ compare

Compare side by side →

Odkazuje sem

Vícejazyčná klasifikace obrazu Multimodální detekce objektů

Našli jste na této stránce chybu? Nahlaste ji nebo navrhněte opravu →

Přečíst celou metodu

Method map

Zdroje

Jak citovat tuto stránku

Příbuzné metody

Which method?

Odkazuje sem