Machine learningDeep learning / NLP / CV

Classification d'images multimodales

La classification d'images multimodales étend la classification visuelle standard en incorporant des modalités supplémentaires — telles que des légendes textuelles, de l'audio ou des métadonnées structurées — en plus des caractéristiques d'image. Des encodeurs distincts traitent chaque modalité, leurs représentations sont fusionnées et un classificateur conjoint attribue l'étiquette cible. Des modèles tels que CLIP démontrent que l'alignement image-texte permet la classification d'images en mode zéro-shot et few-shot à grande échelle.

Ouvrir dans MethodMindBientôtVidéoBientôtDownload slides

Lire la méthode complète

Réservé aux membres

Connectez-vous avec un compte gratuit pour lire cette section.

Se connecter

Method map

The neighbourhood of related methods — select a node to explore.

Classification d'images multimodales

Classification d'images…Classification d'images Classification multimoda…Détection d'objets multi…Plongements de phrases m…Transformeur Multimodal Classification d'images…

Sources

Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning transferable visual models from natural language supervision. Proceedings of the 38th International Conference on Machine Learning (ICML), PMLR 139, 8748–8763. link ↗
Ngiam, J., Khosla, A., Kim, M., Nam, J., Lee, H., & Ng, A. Y. (2011). Multimodal deep learning. Proceedings of the 28th International Conference on Machine Learning (ICML), 689–696. link ↗

Comment citer cette page

ScholarGate. (2026, June 3). Multimodal Image Classification (Vision + Auxiliary Modality Fusion). ScholarGate. https://scholargate.app/fr/deep-learning/multimodal-image-classification

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Classification d'images par réglage finApprentissage profond↔ compare
Classification d'imagesApprentissage profond↔ compare
Classification multimodale basée sur BERTApprentissage profond↔ compare
Détection d'objets multimodaleApprentissage profond↔ compare
Plongements de phrases multimodauxApprentissage profond↔ compare
Transformeur MultimodalApprentissage profond↔ compare

Compare side by side →

Référencée par

Classification d'images multilingue Détection d'objets multimodale

Une erreur sur cette page ? Signalez-la ou proposez une correction →

Lire la méthode complète

Method map

Sources

Comment citer cette page

Méthodes apparentées

Which method?

Référencée par