Multimodālie teikumu ieguldinājumi
Multimodālie teikumu ieguldinājumi kartē tekstu un attēlus (un dažreiz audio vai video) kopīgā nepārtrauktā vektoru telpā tā, lai semantiski saistīti pāri no dažādām modalitātēm atrastos tuvu viens otram. Trenēti ar kontrastīviem mērķiem uz lieliem savienotiem korpusiem, šīs reprezentācijas nodrošina starpmodalitāšu izgūšanu, nulles kadru klasifikāciju un redzes-valodas argumentāciju.
Lasīt pilno metodes aprakstu
Piesakieties ar bezmaksas kontu, lai lasītu šo sadaļu.
Metožu karte
Saistīto metožu apkaime — atlasiet mezglu, lai izpētītu.
Avoti
- Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning transferable visual models from natural language supervision. In Proceedings of the 38th International Conference on Machine Learning (ICML), pp. 8748–8763. PMLR. link ↗
- Frome, A., Corrado, G. S., Shlens, J., Bengio, S., Dean, J., Ranzato, M., & Mikolov, T. (2013). DeViSE: A deep visual-semantic embedding model. In Advances in Neural Information Processing Systems (NeurIPS), Vol. 26. link ↗
Kā citēt šo lapu
ScholarGate. (2026, June 3). Multimodal Sentence Embeddings (Joint Vision-Language Representation Learning). ScholarGate. https://scholargate.app/lv/deep-learning/multimodal-sentence-embeddings
Kura metode?
Novietojiet šo metodi blakus tās tuvākajām radniecīgajām metodēm un lasiet tās līdzās — bibliotēka noliek grāmatas uz galda; izvēle ir jūsu.
- CLIPDziļā mācīšanās↔ salīdzināt
Uz to atsaucas
Pamanījāt kļūdu šajā lapā? Ziņojiet vai ierosiniet labojumu →