Machine learningDeep learning / NLP / CV

Multimodal Doc2Vec

Multimodal Doc2Vec extiende el marco de vectores de párrafos de Doc2Vec para incorporar información de más de una modalidad —típicamente texto junto con imágenes, audio o metadatos estructurados—, produciendo una incrustación compartida a nivel de documento que captura semántica de múltiples fuentes simultáneamente. Se utiliza para recuperación intermodal, clasificación multifuente y representación de documentos donde el texto por sí solo es insuficiente.

Abrir en MethodMindPróximamenteVídeoPróximamenteDownload slides

Leer el método completo

Solo para miembros

Inicia sesión con una cuenta gratuita para leer esta sección.

Iniciar sesión

Method map

The neighbourhood of related methods — select a node to explore.

Fuentes

  1. Le, Q. V., & Mikolov, T. (2014). Distributed Representations of Sentences and Documents. Proceedings of the 31st International Conference on Machine Learning (ICML), PMLR 32(2), 1188–1196. link
  2. Ngiam, J., Khosla, A., Kim, M., Nam, J., Lee, H., & Ng, A. Y. (2011). Multimodal Deep Learning. Proceedings of the 28th International Conference on Machine Learning (ICML), 689–696. link

Cómo citar esta página

ScholarGate. (2026, June 3). Multimodal Doc2Vec (Paragraph Vector with Multi-Source Input). ScholarGate. https://scholargate.app/es/deep-learning/multimodal-doc2vec

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Citado por

ScholarGateMultimodal Doc2Vec (Multimodal Doc2Vec (Paragraph Vector with Multi-Source Input)). Recuperado el 2026-06-15 de https://scholargate.app/es/deep-learning/multimodal-doc2vec · Conjunto de datos: https://doi.org/10.5281/zenodo.20539026