Multimodal Doc2Vec
Multimodal Doc2Vec utvider Doc2Vecs rammeverk for paragrafvektorer til å inkludere informasjon fra mer enn én modalitet — typisk tekst sammen med bilder, lyd eller strukturert metadata — og produserer en delt innleiring på dokumentnivå som fanger semantikk fra flere kilder samtidig. Den brukes for kryssmodal gjenfinning, klassifisering fra flere kilder og dokumentrepresentasjon der tekst alene er utilstrekkelig.
Les hele metoden
Logg inn med en gratis konto for å lese denne delen.
Method map
The neighbourhood of related methods — select a node to explore.
Kilder
- Le, Q. V., & Mikolov, T. (2014). Distributed Representations of Sentences and Documents. Proceedings of the 31st International Conference on Machine Learning (ICML), PMLR 32(2), 1188–1196. link ↗
- Ngiam, J., Khosla, A., Kim, M., Nam, J., Lee, H., & Ng, A. Y. (2011). Multimodal Deep Learning. Proceedings of the 28th International Conference on Machine Learning (ICML), 689–696. link ↗
Slik siterer du denne siden
ScholarGate. (2026, June 3). Multimodal Doc2Vec (Paragraph Vector with Multi-Source Input). ScholarGate. https://scholargate.app/no/deep-learning/multimodal-doc2vec
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Doc2VecTekstutvinning↔ compare
- Multimodal BERT-basert klassifiseringDyp læring↔ compare
- Multimodale setningsinnleiringerDyp læring↔ compare
- Multimodal transformereDyp læring↔ compare
- Multimodal Word2VecDyp læring↔ compare
- SetningsembddingerDyp læring↔ compare
Referert av
Funnet en feil på denne siden? Rapporter eller foreslå en rettelse →