ScholarGate
Asistent
Machine learningDeep learning / NLP / CV

Clasificare multimodală a imaginilor

Clasificarea multimodală a imaginilor extinde clasificarea vizuală standard prin încorporarea de modalități suplimentare — cum ar fi descrieri textuale, audio sau metadate structurate — alături de caracteristicile imaginii. Codificatoare separate procesează fiecare modalitate, reprezentările lor sunt fuzionate, iar un clasificator comun atribuie eticheta țintă. Modele precum CLIP demonstrează că alinierea imagine-text permite clasificarea imaginilor zero-shot și few-shot la scară.

Deschide în MethodMindÎn curândVideoÎn curândDownload slides

Citește metoda completă

Doar pentru membri

Autentifică-te cu un cont gratuit pentru a citi această secțiune.

Autentificare

Method map

The neighbourhood of related methods — select a node to explore.

Surse

  1. Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning transferable visual models from natural language supervision. Proceedings of the 38th International Conference on Machine Learning (ICML), PMLR 139, 8748–8763. link
  2. Ngiam, J., Khosla, A., Kim, M., Nam, J., Lee, H., & Ng, A. Y. (2011). Multimodal deep learning. Proceedings of the 28th International Conference on Machine Learning (ICML), 689–696. link

Cum se citează această pagină

ScholarGate. (2026, June 3). Multimodal Image Classification (Vision + Auxiliary Modality Fusion). ScholarGate. https://scholargate.app/ro/deep-learning/multimodal-image-classification

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Citat de

ScholarGateMultimodal Image Classification (Multimodal Image Classification (Vision + Auxiliary Modality Fusion)). Preluat la 2026-06-15 de pe https://scholargate.app/ro/deep-learning/multimodal-image-classification · Set de date: https://doi.org/10.5281/zenodo.20539026