Machine learningDeep learning / NLP / CV

Clasificación multimodal basada en BERT

La clasificación multimodal basada en BERT extiende la arquitectura del transformador BERT para codificar y clasificar conjuntamente datos de múltiples modalidades —más comúnmente texto emparejado con imágenes— fusionando sus representaciones antes de una capa de clasificación final. Introducida prominentemente alrededor de 2019 a través de modelos como MMBT y ViLBERT, se ha convertido en un enfoque estándar para tareas en las que ni el texto ni la imagen por sí solos contienen información suficiente para un etiquetado preciso.

Abrir en MethodMindPróximamenteVídeoPróximamenteDownload slides

Leer el método completo

Solo para miembros

Inicia sesión con una cuenta gratuita para leer esta sección.

Iniciar sesión

Method map

The neighbourhood of related methods — select a node to explore.

+8 more

Fuentes

  1. Kiela, D., Bhooshan, S., Firooz, H., Perez, E., & Testuggine, D. (2019). Supervised multimodal bitransformers for classifying images and text. arXiv preprint arXiv:1909.02950. link
  2. Lu, J., Batra, D., Parikh, D., & Lee, S. (2019). ViLBERT: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks. Advances in Neural Information Processing Systems, 32. link

Cómo citar esta página

ScholarGate. (2026, June 3). Multimodal BERT-based Classification (Transformer Fusion of Text and Non-text Modalities). ScholarGate. https://scholargate.app/es/deep-learning/multimodal-bert-based-classification

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Citado por

ScholarGateMultimodal BERT-based Classification (Multimodal BERT-based Classification (Transformer Fusion of Text and Non-text Modalities)). Recuperado el 2026-06-15 de https://scholargate.app/es/deep-learning/multimodal-bert-based-classification · Conjunto de datos: https://doi.org/10.5281/zenodo.20539026