Machine learningDeep learning / NLP / CV

Embeddings Multimodais de Frases

Embeddings multimodais de frases mapeiam texto e imagens (e, por vezes, áudio ou vídeo) para um espaço vetorial contínuo compartilhado, de modo que pares semanticamente relacionados de diferentes modalidades fiquem próximos. Treinados com objetivos contrastivos em grandes corpora pareados, essas representações potencializam a recuperação intermodal, a classificação zero-shot e o raciocínio visão-linguagem.

Abrir no MethodMindEm breveVídeoEm breveBaixar slides

Leia o método completo

Exclusivo para membros

Entre com uma conta gratuita para ler esta seção.

Entrar

Mapa de métodos

A vizinhança de métodos relacionados — selecione um nó para explorar.

Embeddings Multimodais de Frases

CLIP Multimodal Doc2Vec Rede Neural de Grafos Mu…Classificação de Imagens…Perceptron Multicamadas…Reconhecimento Multimoda…Resposta a Perguntas Mul…Classificação Multimodal…Modelagem de Tópicos Mul…Multimodal Word2Vec

Fontes

Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning transferable visual models from natural language supervision. In Proceedings of the 38th International Conference on Machine Learning (ICML), pp. 8748–8763. PMLR. link ↗
Frome, A., Corrado, G. S., Shlens, J., Bengio, S., Dean, J., Ranzato, M., & Mikolov, T. (2013). DeViSE: A deep visual-semantic embedding model. In Advances in Neural Information Processing Systems (NeurIPS), Vol. 26. link ↗

Como citar esta página

ScholarGate. (2026, June 3). Multimodal Sentence Embeddings (Joint Vision-Language Representation Learning). ScholarGate. https://scholargate.app/pt/deep-learning/multimodal-sentence-embeddings

Qual método?

Coloque este método ao lado dos seus pares mais próximos e leia-os lado a lado — a biblioteca dispõe os livros sobre a mesa; a escolha é sua.

CLIPAprendizado profundo↔ comparar

Comparar lado a lado →

Referenciado por

Multimodal Doc2Vec Rede Neural de Grafos Multimodal Classificação de Imagens Multimodais Perceptron Multicamadas Multimodal Reconhecimento Multimodal de Entidades Nomeadas Resposta a Perguntas Multimodais Classificação Multimodal Baseada em RoBERTa Modelagem de Tópicos Multimodais Multimodal Word2Vec

Encontrou um problema nesta página? Relate ou sugira uma correção →

Leia o método completo

Mapa de métodos

Fontes

Como citar esta página

Métodos relacionados

Qual método?

Referenciado por