Machine learningDeep learning / NLP / CV

Multimodální klasifikace obrazu

Multimodální klasifikace obrazu rozšiřuje standardní vizuální klasifikaci o začlenění dodatečných modalit – jako jsou textové popisky, zvuk nebo strukturovaná metadata – vedle obrazových příznaků. Samostatné enkodéry zpracovávají každou modalitu, jejich reprezentace jsou sloučeny a společný klasifikátor přiřazuje cílový popisek. Modely jako CLIP demonstrují, že zarovnání obrazu a textu umožňuje klasifikaci obrazu v režimu zero-shot a few-shot v rozsáhlém měřítku.

Otevřít v MethodMindJiž brzyVideoJiž brzyDownload slides

Přečíst celou metodu

Pouze pro členy

Pro přečtení této sekce se přihlaste s bezplatným účtem.

Přihlásit se

Method map

The neighbourhood of related methods — select a node to explore.

Zdroje

  1. Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning transferable visual models from natural language supervision. Proceedings of the 38th International Conference on Machine Learning (ICML), PMLR 139, 8748–8763. link
  2. Ngiam, J., Khosla, A., Kim, M., Nam, J., Lee, H., & Ng, A. Y. (2011). Multimodal deep learning. Proceedings of the 28th International Conference on Machine Learning (ICML), 689–696. link

Jak citovat tuto stránku

ScholarGate. (2026, June 3). Multimodal Image Classification (Vision + Auxiliary Modality Fusion). ScholarGate. https://scholargate.app/cs/deep-learning/multimodal-image-classification

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Odkazuje sem

ScholarGateMultimodal Image Classification (Multimodal Image Classification (Vision + Auxiliary Modality Fusion)). Získáno 2026-06-15 z https://scholargate.app/cs/deep-learning/multimodal-image-classification · Datová sada: https://doi.org/10.5281/zenodo.20539026