Machine learningDeep learning / NLP / CV

Classification multimodale basée sur BERT

La classification multimodale basée sur BERT étend l'architecture du transformeur BERT pour encoder et classifier conjointement des données provenant de plusieurs modalités — le plus souvent du texte associé à des images — en fusionnant leurs représentations avant une tête de classification finale. Introduite de manière proéminente vers 2019 par des modèles tels que MMBT et ViLBERT, elle est devenue une approche standard pour les tâches où ni le texte ni l'image seuls ne portent suffisamment d'informations pour une labellisation précise.

Ouvrir dans MethodMindBientôtVidéoBientôtDownload slides

Lire la méthode complète

Réservé aux membres

Connectez-vous avec un compte gratuit pour lire cette section.

Se connecter

Method map

The neighbourhood of related methods — select a node to explore.

+8 more

Sources

  1. Kiela, D., Bhooshan, S., Firooz, H., Perez, E., & Testuggine, D. (2019). Supervised multimodal bitransformers for classifying images and text. arXiv preprint arXiv:1909.02950. link
  2. Lu, J., Batra, D., Parikh, D., & Lee, S. (2019). ViLBERT: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks. Advances in Neural Information Processing Systems, 32. link

Comment citer cette page

ScholarGate. (2026, June 3). Multimodal BERT-based Classification (Transformer Fusion of Text and Non-text Modalities). ScholarGate. https://scholargate.app/fr/deep-learning/multimodal-bert-based-classification

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Référencée par

ScholarGateMultimodal BERT-based Classification (Multimodal BERT-based Classification (Transformer Fusion of Text and Non-text Modalities)). Consulté le 2026-06-15 sur https://scholargate.app/fr/deep-learning/multimodal-bert-based-classification · Jeu de données : https://doi.org/10.5281/zenodo.20539026