Machine learningDeep learning / NLP / CV

Multimodal Doc2Vec (Paragraph Vector with Multi-Source Input)

Doc2Vec classique apprend un vecteur de longueur fixe pour chaque document en prédisant des mots dans leur contexte, mais il ne voit que du texte. Les documents du monde réel — articles de presse avec photos, fiches produits avec images et descriptions, ou articles scientifiques avec figures — véhiculent du sens à travers plusieurs canaux. Multimodal Doc2Vec aborde ce problème en encodant chaque modalité dans sa propre représentation intermédiaire, puis en fusionnant ces représentations, entraînant le vecteur de document combiné de sorte que les signaux textuels et visuels (ou autres) se renforcent mutuellement. Le résultat est un embedding qui reflète le document complet plutôt que ses seuls mots.

Ouvrir dans MethodMindBientôtVidéoBientôtDownload slides

Lire la méthode complète

Réservé aux membres

Connectez-vous avec un compte gratuit pour lire cette section.

Se connecter

Method map

The neighbourhood of related methods — select a node to explore.

Sources

  1. Le, Q. V., & Mikolov, T. (2014). Distributed Representations of Sentences and Documents. Proceedings of the 31st International Conference on Machine Learning (ICML), PMLR 32(2), 1188–1196. link
  2. Ngiam, J., Khosla, A., Kim, M., Nam, J., Lee, H., & Ng, A. Y. (2011). Multimodal Deep Learning. Proceedings of the 28th International Conference on Machine Learning (ICML), 689–696. link

Comment citer cette page

ScholarGate. (2026, June 3). Multimodal Doc2Vec (Paragraph Vector with Multi-Source Input). ScholarGate. https://scholargate.app/fr/deep-learning/multimodal-doc2vec

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Référencée par

ScholarGateMultimodal Doc2Vec (Multimodal Doc2Vec (Paragraph Vector with Multi-Source Input)). Consulté le 2026-06-15 sur https://scholargate.app/fr/deep-learning/multimodal-doc2vec · Jeu de données : https://doi.org/10.5281/zenodo.20539026