Machine learningDeep learning / NLP / CV

Multimodal Doc2Vec

Multimodal Doc2Vec rozszerza ramy wektorów dokumentów (paragraph-vector) z Doc2Vec o informacje z więcej niż jednej modalności — zazwyczaj tekstu obok obrazów, dźwięku lub ustrukturyzowanych metadanych — generując wspólne osadzenie (embedding) na poziomie dokumentu, które jednocześnie uwzględnia semantykę z wielu źródeł. Jest stosowany do wyszukiwania między modalnościami (cross-modal retrieval), klasyfikacji wieloźródłowej oraz reprezentacji dokumentów, gdy sam tekst jest niewystarczający.

Otwórz w MethodMindWkrótceWideoWkrótceDownload slides

Przeczytaj pełny opis metody

Tylko dla członków

Zaloguj się na bezpłatne konto, aby przeczytać tę sekcję.

Zaloguj się

Method map

The neighbourhood of related methods — select a node to explore.

Źródła

  1. Le, Q. V., & Mikolov, T. (2014). Distributed Representations of Sentences and Documents. Proceedings of the 31st International Conference on Machine Learning (ICML), PMLR 32(2), 1188–1196. link
  2. Ngiam, J., Khosla, A., Kim, M., Nam, J., Lee, H., & Ng, A. Y. (2011). Multimodal Deep Learning. Proceedings of the 28th International Conference on Machine Learning (ICML), 689–696. link

Jak cytować tę stronę

ScholarGate. (2026, June 3). Multimodal Doc2Vec (Paragraph Vector with Multi-Source Input). ScholarGate. https://scholargate.app/pl/deep-learning/multimodal-doc2vec

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Cytowana przez

ScholarGateMultimodal Doc2Vec (Multimodal Doc2Vec (Paragraph Vector with Multi-Source Input)). Pobrano 2026-06-15 z https://scholargate.app/pl/deep-learning/multimodal-doc2vec · Zbiór danych: https://doi.org/10.5281/zenodo.20539026