Machine learningDeep learning / NLP / CV

Classificação Multimodal Baseada em BERT

A classificação multimodal baseada em BERT estende a arquitetura transformer BERT para codificar e classificar conjuntamente dados de múltiplas modalidades — mais comumente texto emparelhado com imagens — fundindo suas representações antes de uma cabeça de classificação final. Introduzida proeminentemente por volta de 2019 através de modelos como MMBT e ViLBERT, tornou-se uma abordagem padrão para tarefas onde nem o texto nem a imagem sozinhos carregam informação suficiente para rotulagem precisa.

Abrir no MethodMindEm breveVídeoEm breveDownload slides

Leia o método completo

Exclusivo para membros

Entre com uma conta gratuita para ler esta seção.

Entrar

Method map

The neighbourhood of related methods — select a node to explore.

Classificação Multimodal Baseada em BERT

CLIP Vision Transformer Rede Neural Convoluciona…Modelo de Difusão Multim…Multimodal Doc2Vec Rede Neural de Grafos Mu…Multimodal GRU Classificação de Imagens…Modelo de Tópicos LDA Mu…Reconhecimento Multimoda…

+8 more

Fontes

Kiela, D., Bhooshan, S., Firooz, H., Perez, E., & Testuggine, D. (2019). Supervised multimodal bitransformers for classifying images and text. arXiv preprint arXiv:1909.02950. link ↗
Lu, J., Batra, D., Parikh, D., & Lee, S. (2019). ViLBERT: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks. Advances in Neural Information Processing Systems, 32. link ↗

Como citar esta página

ScholarGate. (2026, June 3). Multimodal BERT-based Classification (Transformer Fusion of Text and Non-text Modalities). ScholarGate. https://scholargate.app/pt/deep-learning/multimodal-bert-based-classification

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

CLIPAprendizado profundo↔ compare
Vision TransformerAprendizado profundo↔ compare

Compare side by side →

Referenciado por

Rede Neural Convolucional Multimodal Modelo de Difusão Multimodal Multimodal Doc2Vec Rede Neural de Grafos Multimodal Multimodal GRU Classificação de Imagens Multimodais Modelo de Tópicos LDA Multimodal Reconhecimento Multimodal de Entidades Nomeadas Resposta a Perguntas Multimodais Rede Neural Recorrente Multimodal Classificação Multimodal Baseada em RoBERTa Sumarização de Texto Multimodal Modelagem de Tópicos Multimodais Transformer Multimodal Multimodal Vision Transformer Multimodal Word2Vec

Encontrou um problema nesta página? Relate ou sugira uma correção →

Leia o método completo

Method map

Fontes

Como citar esta página

Métodos relacionados

Which method?

Referenciado por