Clasificación multimodal basada en BERT
La clasificación multimodal basada en BERT extiende la arquitectura del transformador BERT para codificar y clasificar conjuntamente datos de múltiples modalidades —más comúnmente texto emparejado con imágenes— fusionando sus representaciones antes de una capa de clasificación final. Introducida prominentemente alrededor de 2019 a través de modelos como MMBT y ViLBERT, se ha convertido en un enfoque estándar para tareas en las que ni el texto ni la imagen por sí solos contienen información suficiente para un etiquetado preciso.
Leer el método completo
Inicia sesión con una cuenta gratuita para leer esta sección.
Method map
The neighbourhood of related methods — select a node to explore.
+8 more
Fuentes
- Kiela, D., Bhooshan, S., Firooz, H., Perez, E., & Testuggine, D. (2019). Supervised multimodal bitransformers for classifying images and text. arXiv preprint arXiv:1909.02950. link ↗
- Lu, J., Batra, D., Parikh, D., & Lee, S. (2019). ViLBERT: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks. Advances in Neural Information Processing Systems, 32. link ↗
Cómo citar esta página
ScholarGate. (2026, June 3). Multimodal BERT-based Classification (Transformer Fusion of Text and Non-text Modalities). ScholarGate. https://scholargate.app/es/deep-learning/multimodal-bert-based-classification
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- CLIPAprendizaje profundo↔ compare
- Vision TransformerAprendizaje profundo↔ compare
Citado por
¿Has visto un problema en esta página? Infórmanos o sugiere una corrección →