Classification d'images multimodales
La classification d'images multimodales étend la classification visuelle standard en incorporant des modalités supplémentaires — telles que des légendes textuelles, de l'audio ou des métadonnées structurées — en plus des caractéristiques d'image. Des encodeurs distincts traitent chaque modalité, leurs représentations sont fusionnées et un classificateur conjoint attribue l'étiquette cible. Des modèles tels que CLIP démontrent que l'alignement image-texte permet la classification d'images en mode zéro-shot et few-shot à grande échelle.
Lire la méthode complète
Connectez-vous avec un compte gratuit pour lire cette section.
Method map
The neighbourhood of related methods — select a node to explore.
Sources
- Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning transferable visual models from natural language supervision. Proceedings of the 38th International Conference on Machine Learning (ICML), PMLR 139, 8748–8763. link ↗
- Ngiam, J., Khosla, A., Kim, M., Nam, J., Lee, H., & Ng, A. Y. (2011). Multimodal deep learning. Proceedings of the 28th International Conference on Machine Learning (ICML), 689–696. link ↗
Comment citer cette page
ScholarGate. (2026, June 3). Multimodal Image Classification (Vision + Auxiliary Modality Fusion). ScholarGate. https://scholargate.app/fr/deep-learning/multimodal-image-classification
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Classification d'images par réglage finApprentissage profond↔ compare
- Classification d'imagesApprentissage profond↔ compare
- Classification multimodale basée sur BERTApprentissage profond↔ compare
- Détection d'objets multimodaleApprentissage profond↔ compare
- Plongements de phrases multimodauxApprentissage profond↔ compare
- Transformeur MultimodalApprentissage profond↔ compare
Référencée par
Une erreur sur cette page ? Signalez-la ou proposez une correction →