ScholarGate
Assistente
Machine learningDeep learning / NLP / CV

Embeddings Multimodais de Frases

Embeddings multimodais de frases mapeiam texto e imagens (e, por vezes, áudio ou vídeo) para um espaço vetorial contínuo compartilhado, de modo que pares semanticamente relacionados de diferentes modalidades fiquem próximos. Treinados com objetivos contrastivos em grandes corpora pareados, essas representações potencializam a recuperação intermodal, a classificação zero-shot e o raciocínio visão-linguagem.

Abrir no MethodMindEm breveVídeoEm breveBaixar slides

Leia o método completo

Exclusivo para membros

Entre com uma conta gratuita para ler esta seção.

Entrar

Mapa de métodos

A vizinhança de métodos relacionados — selecione um nó para explorar.

Fontes

  1. Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning transferable visual models from natural language supervision. In Proceedings of the 38th International Conference on Machine Learning (ICML), pp. 8748–8763. PMLR. link
  2. Frome, A., Corrado, G. S., Shlens, J., Bengio, S., Dean, J., Ranzato, M., & Mikolov, T. (2013). DeViSE: A deep visual-semantic embedding model. In Advances in Neural Information Processing Systems (NeurIPS), Vol. 26. link

Como citar esta página

ScholarGate. (2026, June 3). Multimodal Sentence Embeddings (Joint Vision-Language Representation Learning). ScholarGate. https://scholargate.app/pt/deep-learning/multimodal-sentence-embeddings

Qual método?

Coloque este método ao lado dos seus pares mais próximos e leia-os lado a lado — a biblioteca dispõe os livros sobre a mesa; a escolha é sua.

Comparar lado a lado

Referenciado por

ScholarGateMultimodal Sentence Embeddings (Multimodal Sentence Embeddings (Joint Vision-Language Representation Learning)). Recuperado em 2026-06-15 de https://scholargate.app/pt/deep-learning/multimodal-sentence-embeddings · Conjunto de dados: https://doi.org/10.5281/zenodo.20539026