Classification multimodale basée sur BERT
La classification multimodale basée sur BERT étend l'architecture du transformeur BERT pour encoder et classifier conjointement des données provenant de plusieurs modalités — le plus souvent du texte associé à des images — en fusionnant leurs représentations avant une tête de classification finale. Introduite de manière proéminente vers 2019 par des modèles tels que MMBT et ViLBERT, elle est devenue une approche standard pour les tâches où ni le texte ni l'image seuls ne portent suffisamment d'informations pour une labellisation précise.
Lire la méthode complète
Connectez-vous avec un compte gratuit pour lire cette section.
Method map
The neighbourhood of related methods — select a node to explore.
+8 more
Sources
- Kiela, D., Bhooshan, S., Firooz, H., Perez, E., & Testuggine, D. (2019). Supervised multimodal bitransformers for classifying images and text. arXiv preprint arXiv:1909.02950. link ↗
- Lu, J., Batra, D., Parikh, D., & Lee, S. (2019). ViLBERT: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks. Advances in Neural Information Processing Systems, 32. link ↗
Comment citer cette page
ScholarGate. (2026, June 3). Multimodal BERT-based Classification (Transformer Fusion of Text and Non-text Modalities). ScholarGate. https://scholargate.app/fr/deep-learning/multimodal-bert-based-classification
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- CLIPApprentissage profond↔ compare
- Vision TransformerApprentissage profond↔ compare
Référencée par
Une erreur sur cette page ? Signalez-la ou proposez une correction →