Multimodal Doc2Vec
Multimodal Doc2Vec extiende el marco de vectores de párrafos de Doc2Vec para incorporar información de más de una modalidad —típicamente texto junto con imágenes, audio o metadatos estructurados—, produciendo una incrustación compartida a nivel de documento que captura semántica de múltiples fuentes simultáneamente. Se utiliza para recuperación intermodal, clasificación multifuente y representación de documentos donde el texto por sí solo es insuficiente.
Leer el método completo
Inicia sesión con una cuenta gratuita para leer esta sección.
Method map
The neighbourhood of related methods — select a node to explore.
Fuentes
- Le, Q. V., & Mikolov, T. (2014). Distributed Representations of Sentences and Documents. Proceedings of the 31st International Conference on Machine Learning (ICML), PMLR 32(2), 1188–1196. link ↗
- Ngiam, J., Khosla, A., Kim, M., Nam, J., Lee, H., & Ng, A. Y. (2011). Multimodal Deep Learning. Proceedings of the 28th International Conference on Machine Learning (ICML), 689–696. link ↗
Cómo citar esta página
ScholarGate. (2026, June 3). Multimodal Doc2Vec (Paragraph Vector with Multi-Source Input). ScholarGate. https://scholargate.app/es/deep-learning/multimodal-doc2vec
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Doc2VecMinería de texto↔ compare
- Clasificación multimodal basada en BERTAprendizaje profundo↔ compare
- Incrustaciones de Oraciones MultimodalesAprendizaje profundo↔ compare
- Transformador MultimodalAprendizaje profundo↔ compare
- Multimodal Word2VecAprendizaje profundo↔ compare
- Incrutaciones de oracionesAprendizaje profundo↔ compare
Citado por
¿Has visto un problema en esta página? Infórmanos o sugiere una corrección →