Machine learningDeep learning / NLP / CV

Plongements de phrases multimodaux

Les plongements de phrases multimodaux projettent du texte et des images (et parfois de l'audio ou de la vidéo) dans un espace vectoriel continu partagé, de sorte que les paires sémantiquement liées provenant de différentes modalités se retrouvent proches les unes des autres. Entraînées par des objectifs contrastifs sur de grands corpus appariés, ces représentations alimentent la recherche intermodale, la classification zéro-shot et le raisonnement vision-langage.

Ouvrir dans MethodMindBientôtVidéoBientôtDownload slides

Lire la méthode complète

Réservé aux membres

Connectez-vous avec un compte gratuit pour lire cette section.

Se connecter

Method map

The neighbourhood of related methods — select a node to explore.

Plongements de phrases multimodaux

CLIP Multimodal Doc2Vec Réseau neuronal graphiqu…Classification d'images…Perceptron Multicouche M…Reconnaissance multimoda…Réponse aux questions mu…Classification multimoda…Modélisation thématique…Word2Vec Multimodal

Sources

Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning transferable visual models from natural language supervision. In Proceedings of the 38th International Conference on Machine Learning (ICML), pp. 8748–8763. PMLR. link ↗
Frome, A., Corrado, G. S., Shlens, J., Bengio, S., Dean, J., Ranzato, M., & Mikolov, T. (2013). DeViSE: A deep visual-semantic embedding model. In Advances in Neural Information Processing Systems (NeurIPS), Vol. 26. link ↗

Comment citer cette page

ScholarGate. (2026, June 3). Multimodal Sentence Embeddings (Joint Vision-Language Representation Learning). ScholarGate. https://scholargate.app/fr/deep-learning/multimodal-sentence-embeddings

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

CLIPApprentissage profond↔ compare

Compare side by side →

Référencée par

Multimodal Doc2Vec Réseau neuronal graphique multimodal Classification d'images multimodales Perceptron Multicouche Multimodal Reconnaissance multimodale d'entités nommées Réponse aux questions multimodales Classification multimodale basée sur RoBERTa Modélisation thématique multimodale Word2Vec Multimodal

Une erreur sur cette page ? Signalez-la ou proposez une correction →

Lire la méthode complète

Method map

Sources

Comment citer cette page

Méthodes apparentées

Which method?

Référencée par