ScholarGate
Asistents
Machine learningDeep learning / NLP / CV

Multimodālie teikumu ieguldinājumi

Multimodālie teikumu ieguldinājumi kartē tekstu un attēlus (un dažreiz audio vai video) kopīgā nepārtrauktā vektoru telpā tā, lai semantiski saistīti pāri no dažādām modalitātēm atrastos tuvu viens otram. Trenēti ar kontrastīviem mērķiem uz lieliem savienotiem korpusiem, šīs reprezentācijas nodrošina starpmodalitāšu izgūšanu, nulles kadru klasifikāciju un redzes-valodas argumentāciju.

Atvērt MethodMindDrīzumāVideoDrīzumāLejupielādēt slaidus

Lasīt pilno metodes aprakstu

Tikai dalībniekiem

Piesakieties ar bezmaksas kontu, lai lasītu šo sadaļu.

Pieteikties

Metožu karte

Saistīto metožu apkaime — atlasiet mezglu, lai izpētītu.

Avoti

  1. Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning transferable visual models from natural language supervision. In Proceedings of the 38th International Conference on Machine Learning (ICML), pp. 8748–8763. PMLR. link
  2. Frome, A., Corrado, G. S., Shlens, J., Bengio, S., Dean, J., Ranzato, M., & Mikolov, T. (2013). DeViSE: A deep visual-semantic embedding model. In Advances in Neural Information Processing Systems (NeurIPS), Vol. 26. link

Kā citēt šo lapu

ScholarGate. (2026, June 3). Multimodal Sentence Embeddings (Joint Vision-Language Representation Learning). ScholarGate. https://scholargate.app/lv/deep-learning/multimodal-sentence-embeddings

Kura metode?

Novietojiet šo metodi blakus tās tuvākajām radniecīgajām metodēm un lasiet tās līdzās — bibliotēka noliek grāmatas uz galda; izvēle ir jūsu.

Salīdzināt blakus

Uz to atsaucas

ScholarGateMultimodal Sentence Embeddings (Multimodal Sentence Embeddings (Joint Vision-Language Representation Learning)). Izgūts 2026-06-15 no https://scholargate.app/lv/deep-learning/multimodal-sentence-embeddings · Datu kopa: https://doi.org/10.5281/zenodo.20539026