ScholarGate
Assistente
Machine learningDeep learning / NLP / CV

Multimodal Doc2Vec

Multimodal Doc2Vec estende o framework de vetores de parágrafo Doc2Vec para incorporar informações de mais de uma modalidade — tipicamente texto ao lado de imagens, áudio ou metadados estruturados — produzindo um embedding compartilhado em nível de documento que captura semânticas de múltiplas fontes simultaneamente. É usado para recuperação cross-modal, classificação multi-fonte e representação de documentos onde apenas texto é insuficiente.

Abrir no MethodMindEm breveVídeoEm breveDownload slides

Leia o método completo

Exclusivo para membros

Entre com uma conta gratuita para ler esta seção.

Entrar

Method map

The neighbourhood of related methods — select a node to explore.

Fontes

  1. Le, Q. V., & Mikolov, T. (2014). Distributed Representations of Sentences and Documents. Proceedings of the 31st International Conference on Machine Learning (ICML), PMLR 32(2), 1188–1196. link
  2. Ngiam, J., Khosla, A., Kim, M., Nam, J., Lee, H., & Ng, A. Y. (2011). Multimodal Deep Learning. Proceedings of the 28th International Conference on Machine Learning (ICML), 689–696. link

Como citar esta página

ScholarGate. (2026, June 3). Multimodal Doc2Vec (Paragraph Vector with Multi-Source Input). ScholarGate. https://scholargate.app/pt/deep-learning/multimodal-doc2vec

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Referenciado por

ScholarGateMultimodal Doc2Vec (Multimodal Doc2Vec (Paragraph Vector with Multi-Source Input)). Recuperado em 2026-06-15 de https://scholargate.app/pt/deep-learning/multimodal-doc2vec · Conjunto de dados: https://doi.org/10.5281/zenodo.20539026