Machine learningDeep learning / NLP / CV

Мультимодальный Doc2Vec

Мультимодальный Doc2Vec расширяет структуру векторного представления документов Doc2Vec для включения информации из более чем одной модальности — обычно текста наряду с изображениями, аудио или структурированными метаданными — создавая общее векторное представление уровня документа, которое одновременно улавливает семантику из нескольких источников. Он используется для кросс-модального поиска, многоисточниковой классификации и представления документов, где одного текста недостаточно.

Открыть в MethodMindСкороВидеоСкороDownload slides

Читать метод полностью

Только для участников

Войдите с бесплатным аккаунтом, чтобы прочитать этот раздел.

Войти

Method map

The neighbourhood of related methods — select a node to explore.

Источники

  1. Le, Q. V., & Mikolov, T. (2014). Distributed Representations of Sentences and Documents. Proceedings of the 31st International Conference on Machine Learning (ICML), PMLR 32(2), 1188–1196. link
  2. Ngiam, J., Khosla, A., Kim, M., Nam, J., Lee, H., & Ng, A. Y. (2011). Multimodal Deep Learning. Proceedings of the 28th International Conference on Machine Learning (ICML), 689–696. link

Как цитировать эту страницу

ScholarGate. (2026, June 3). Multimodal Doc2Vec (Paragraph Vector with Multi-Source Input). ScholarGate. https://scholargate.app/ru/deep-learning/multimodal-doc2vec

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Упоминается в

ScholarGateMultimodal Doc2Vec (Multimodal Doc2Vec (Paragraph Vector with Multi-Source Input)). Получено 2026-06-15 из https://scholargate.app/ru/deep-learning/multimodal-doc2vec · Набор данных: https://doi.org/10.5281/zenodo.20539026