Embeddings Multimodais de Frases
Embeddings multimodais de frases mapeiam texto e imagens (e, por vezes, áudio ou vídeo) para um espaço vetorial contínuo compartilhado, de modo que pares semanticamente relacionados de diferentes modalidades fiquem próximos. Treinados com objetivos contrastivos em grandes corpora pareados, essas representações potencializam a recuperação intermodal, a classificação zero-shot e o raciocínio visão-linguagem.
Leia o método completo
Entre com uma conta gratuita para ler esta seção.
Mapa de métodos
A vizinhança de métodos relacionados — selecione um nó para explorar.
Fontes
- Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning transferable visual models from natural language supervision. In Proceedings of the 38th International Conference on Machine Learning (ICML), pp. 8748–8763. PMLR. link ↗
- Frome, A., Corrado, G. S., Shlens, J., Bengio, S., Dean, J., Ranzato, M., & Mikolov, T. (2013). DeViSE: A deep visual-semantic embedding model. In Advances in Neural Information Processing Systems (NeurIPS), Vol. 26. link ↗
Como citar esta página
ScholarGate. (2026, June 3). Multimodal Sentence Embeddings (Joint Vision-Language Representation Learning). ScholarGate. https://scholargate.app/pt/deep-learning/multimodal-sentence-embeddings
Qual método?
Coloque este método ao lado dos seus pares mais próximos e leia-os lado a lado — a biblioteca dispõe os livros sobre a mesa; a escolha é sua.
- CLIPAprendizado profundo↔ comparar
Referenciado por
Encontrou um problema nesta página? Relate ou sugira uma correção →