Machine learningDeep learning / NLP / CV

Multimodal Doc2Vec (Paragraph Vector with Multi-Source Input)

Doc2Vec classique apprend un vecteur de longueur fixe pour chaque document en prédisant des mots dans leur contexte, mais il ne voit que du texte. Les documents du monde réel — articles de presse avec photos, fiches produits avec images et descriptions, ou articles scientifiques avec figures — véhiculent du sens à travers plusieurs canaux. Multimodal Doc2Vec aborde ce problème en encodant chaque modalité dans sa propre représentation intermédiaire, puis en fusionnant ces représentations, entraînant le vecteur de document combiné de sorte que les signaux textuels et visuels (ou autres) se renforcent mutuellement. Le résultat est un embedding qui reflète le document complet plutôt que ses seuls mots.

Ouvrir dans MethodMindBientôtVidéoBientôtDownload slides

Lire la méthode complète

Réservé aux membres

Connectez-vous avec un compte gratuit pour lire cette section.

Se connecter

Method map

The neighbourhood of related methods — select a node to explore.

Multimodal Doc2Vec

Doc2Vec Classification multimoda…Plongements de phrases m…Transformeur Multimodal Word2Vec Multimodal Plongements de phrases

Sources

Le, Q. V., & Mikolov, T. (2014). Distributed Representations of Sentences and Documents. Proceedings of the 31st International Conference on Machine Learning (ICML), PMLR 32(2), 1188–1196. link ↗
Ngiam, J., Khosla, A., Kim, M., Nam, J., Lee, H., & Ng, A. Y. (2011). Multimodal Deep Learning. Proceedings of the 28th International Conference on Machine Learning (ICML), 689–696. link ↗

Comment citer cette page

ScholarGate. (2026, June 3). Multimodal Doc2Vec (Paragraph Vector with Multi-Source Input). ScholarGate. https://scholargate.app/fr/deep-learning/multimodal-doc2vec

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Doc2VecFouille de textes↔ compare
Classification multimodale basée sur BERTApprentissage profond↔ compare
Plongements de phrases multimodauxApprentissage profond↔ compare
Transformeur MultimodalApprentissage profond↔ compare
Word2Vec MultimodalApprentissage profond↔ compare
Plongements de phrasesApprentissage profond↔ compare

Compare side by side →

Référencée par

Word2Vec Multimodal

Une erreur sur cette page ? Signalez-la ou proposez une correction →