Machine learningDeep learning / NLP / CV

Incrustaciones de Oraciones Multimodales

Las incrustaciones de oraciones multimodales mapean texto e imágenes (y a veces audio o video) en un espacio vectorial continuo compartido, de modo que los pares semánticamente relacionados de diferentes modalidades aterrizan cerca. Entrenadas con objetivos contrastivos en grandes corpus emparejados, estas representaciones potencian la recuperación intermodal, la clasificación de cero disparos y el razonamiento visión-lenguaje.

Abrir en MethodMindPróximamenteVídeoPróximamenteDescargar diapositivas

Leer el método completo

Solo para miembros

Inicia sesión con una cuenta gratuita para leer esta sección.

Iniciar sesión

Mapa de métodos

El vecindario de métodos relacionados: selecciona un nodo para explorarlo.

Incrustaciones de Oraciones Multimodales

CLIP Multimodal Doc2Vec Red Neuronal de Grafos M…Clasificación de Imágene…Perceptrón Multimodal Mu…Reconocimiento Multimoda…Preguntas y respuestas m…Clasificación Multimodal…Modelado de temas multim…Multimodal Word2Vec

Fuentes

Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning transferable visual models from natural language supervision. In Proceedings of the 38th International Conference on Machine Learning (ICML), pp. 8748–8763. PMLR. link ↗
Frome, A., Corrado, G. S., Shlens, J., Bengio, S., Dean, J., Ranzato, M., & Mikolov, T. (2013). DeViSE: A deep visual-semantic embedding model. In Advances in Neural Information Processing Systems (NeurIPS), Vol. 26. link ↗

Cómo citar esta página

ScholarGate. (2026, June 3). Multimodal Sentence Embeddings (Joint Vision-Language Representation Learning). ScholarGate. https://scholargate.app/es/deep-learning/multimodal-sentence-embeddings

¿Qué método?

Coloca este método junto a sus parientes más cercanos y léelos lado a lado: la biblioteca pone los libros sobre la mesa; la elección es tuya.

CLIPAprendizaje profundo↔ comparar

Comparar lado a lado →

Citado por

Multimodal Doc2Vec Red Neuronal de Grafos Multimodal Clasificación de Imágenes Multimodales Perceptrón Multimodal Multicapa Reconocimiento Multimodal de Entidades Nombradas Preguntas y respuestas multimodales Clasificación Multimodal Basada en RoBERTa Modelado de temas multimodal Multimodal Word2Vec

¿Has visto un problema en esta página? Infórmanos o sugiere una corrección →

Leer el método completo

Mapa de métodos

Fuentes

Cómo citar esta página

Métodos relacionados

¿Qué método?

Citado por