Machine learningDeep learning / NLP / CV

Clasificación multimodal basada en BERT

La clasificación multimodal basada en BERT extiende la arquitectura del transformador BERT para codificar y clasificar conjuntamente datos de múltiples modalidades —más comúnmente texto emparejado con imágenes— fusionando sus representaciones antes de una capa de clasificación final. Introducida prominentemente alrededor de 2019 a través de modelos como MMBT y ViLBERT, se ha convertido en un enfoque estándar para tareas en las que ni el texto ni la imagen por sí solos contienen información suficiente para un etiquetado preciso.

Abrir en MethodMindPróximamenteVídeoPróximamenteDownload slides

Leer el método completo

Solo para miembros

Inicia sesión con una cuenta gratuita para leer esta sección.

Iniciar sesión

Method map

The neighbourhood of related methods — select a node to explore.

Clasificación multimodal basada en BERT

CLIP Vision Transformer Red Neuronal Convolucion…Modelo de Difusión Multi…Multimodal Doc2Vec Red Neuronal de Grafos M…GRU Multimodal Clasificación de Imágene…Modelo de Tópicos LDA Mu…Reconocimiento Multimoda…

+8 more

Fuentes

Kiela, D., Bhooshan, S., Firooz, H., Perez, E., & Testuggine, D. (2019). Supervised multimodal bitransformers for classifying images and text. arXiv preprint arXiv:1909.02950. link ↗
Lu, J., Batra, D., Parikh, D., & Lee, S. (2019). ViLBERT: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks. Advances in Neural Information Processing Systems, 32. link ↗

Cómo citar esta página

ScholarGate. (2026, June 3). Multimodal BERT-based Classification (Transformer Fusion of Text and Non-text Modalities). ScholarGate. https://scholargate.app/es/deep-learning/multimodal-bert-based-classification

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

CLIPAprendizaje profundo↔ compare
Vision TransformerAprendizaje profundo↔ compare

Compare side by side →

Citado por

Red Neuronal Convolucional Multimodal Modelo de Difusión Multimodal Multimodal Doc2Vec Red Neuronal de Grafos Multimodal GRU Multimodal Clasificación de Imágenes Multimodales Modelo de Tópicos LDA Multimodal Reconocimiento Multimodal de Entidades Nombradas Preguntas y respuestas multimodales Red Neuronal Recurrente Multimodal Clasificación Multimodal Basada en RoBERTa Resumen de texto multimodal Modelado de temas multimodal Transformador Multimodal Multimodal Vision Transformer Multimodal Word2Vec

¿Has visto un problema en esta página? Infórmanos o sugiere una corrección →

Leer el método completo

Method map

Fuentes

Cómo citar esta página

Métodos relacionados

Which method?

Citado por