Machine learningDeep learning / NLP / CV

Classification multimodale basée sur BERT

La classification multimodale basée sur BERT étend l'architecture du transformeur BERT pour encoder et classifier conjointement des données provenant de plusieurs modalités — le plus souvent du texte associé à des images — en fusionnant leurs représentations avant une tête de classification finale. Introduite de manière proéminente vers 2019 par des modèles tels que MMBT et ViLBERT, elle est devenue une approche standard pour les tâches où ni le texte ni l'image seuls ne portent suffisamment d'informations pour une labellisation précise.

Ouvrir dans MethodMindBientôtVidéoBientôtDownload slides

Lire la méthode complète

Réservé aux membres

Connectez-vous avec un compte gratuit pour lire cette section.

Se connecter

Method map

The neighbourhood of related methods — select a node to explore.

Classification multimodale basée sur BERT

CLIP Vision Transformer Réseau de neurones convo…Modèle de diffusion mult…Multimodal Doc2Vec Réseau neuronal graphiqu…GRU Multimodal Classification d'images…Modèle thématique LDA mu…Reconnaissance multimoda…

+8 more

Sources

Kiela, D., Bhooshan, S., Firooz, H., Perez, E., & Testuggine, D. (2019). Supervised multimodal bitransformers for classifying images and text. arXiv preprint arXiv:1909.02950. link ↗
Lu, J., Batra, D., Parikh, D., & Lee, S. (2019). ViLBERT: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks. Advances in Neural Information Processing Systems, 32. link ↗

Comment citer cette page

ScholarGate. (2026, June 3). Multimodal BERT-based Classification (Transformer Fusion of Text and Non-text Modalities). ScholarGate. https://scholargate.app/fr/deep-learning/multimodal-bert-based-classification

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

CLIPApprentissage profond↔ compare
Vision TransformerApprentissage profond↔ compare

Compare side by side →

Référencée par

Réseau de neurones convolutifs multimodaux Modèle de diffusion multimodal Multimodal Doc2Vec Réseau neuronal graphique multimodal GRU Multimodal Classification d'images multimodales Modèle thématique LDA multimodal Reconnaissance multimodale d'entités nommées Réponse aux questions multimodales Réseau neuronal récurrent multimodal Classification multimodale basée sur RoBERTa Synthèse multimodale de texte Modélisation thématique multimodale Transformeur Multimodal Multimodal Vision Transformer Word2Vec Multimodal

Une erreur sur cette page ? Signalez-la ou proposez une correction →

Lire la méthode complète

Method map

Sources

Comment citer cette page

Méthodes apparentées

Which method?

Référencée par