Incrustaciones de Oraciones Multimodales
Las incrustaciones de oraciones multimodales mapean texto e imágenes (y a veces audio o video) en un espacio vectorial continuo compartido, de modo que los pares semánticamente relacionados de diferentes modalidades aterrizan cerca. Entrenadas con objetivos contrastivos en grandes corpus emparejados, estas representaciones potencian la recuperación intermodal, la clasificación de cero disparos y el razonamiento visión-lenguaje.
Leer el método completo
Inicia sesión con una cuenta gratuita para leer esta sección.
Mapa de métodos
El vecindario de métodos relacionados: selecciona un nodo para explorarlo.
Fuentes
- Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning transferable visual models from natural language supervision. In Proceedings of the 38th International Conference on Machine Learning (ICML), pp. 8748–8763. PMLR. link ↗
- Frome, A., Corrado, G. S., Shlens, J., Bengio, S., Dean, J., Ranzato, M., & Mikolov, T. (2013). DeViSE: A deep visual-semantic embedding model. In Advances in Neural Information Processing Systems (NeurIPS), Vol. 26. link ↗
Cómo citar esta página
ScholarGate. (2026, June 3). Multimodal Sentence Embeddings (Joint Vision-Language Representation Learning). ScholarGate. https://scholargate.app/es/deep-learning/multimodal-sentence-embeddings
¿Qué método?
Coloca este método junto a sus parientes más cercanos y léelos lado a lado: la biblioteca pone los libros sobre la mesa; la elección es tuya.
- CLIPAprendizaje profundo↔ comparar
Citado por
¿Has visto un problema en esta página? Infórmanos o sugiere una corrección →