Machine learningDeep learning / NLP / CV

Multimodal BERT-basert klassifisering

Multimodal BERT-basert klassifisering utvider BERT-transformatorarkitekturen for å felles kode og klassifisere data fra flere modaliteter – oftest tekst paret med bilder – ved å fusjonere representasjonene deres før et endelig klassifiseringshode. Introdusert fremtredende rundt 2019 gjennom modeller som MMBT og ViLBERT, har det blitt en standard tilnærming for oppgaver der verken tekst eller bilde alene bærer tilstrekkelig informasjon for nøyaktig merking.

Åpne i MethodMindSnartVideoSnartDownload slides

Les hele metoden

Kun for medlemmer

Logg inn med en gratis konto for å lese denne delen.

Logg inn

Method map

The neighbourhood of related methods — select a node to explore.

Multimodal BERT-basert klassifisering

CLIP Vision Transformer Multimodal konvolusjonel…Multimodal diffusjonsmod…Multimodal Doc2Vec Multimodal grafnevrale n…Multimodal GRU Multimodal bildeklassifi…Multimodal LDA Topic Mod…Multimodal navngitt enhe…

+8 more

Kilder

Kiela, D., Bhooshan, S., Firooz, H., Perez, E., & Testuggine, D. (2019). Supervised multimodal bitransformers for classifying images and text. arXiv preprint arXiv:1909.02950. link ↗
Lu, J., Batra, D., Parikh, D., & Lee, S. (2019). ViLBERT: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks. Advances in Neural Information Processing Systems, 32. link ↗

Slik siterer du denne siden

ScholarGate. (2026, June 3). Multimodal BERT-based Classification (Transformer Fusion of Text and Non-text Modalities). ScholarGate. https://scholargate.app/no/deep-learning/multimodal-bert-based-classification

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

CLIPDyp læring↔ compare
Vision TransformerDyp læring↔ compare

Compare side by side →

Referert av

Multimodal konvolusjonelt nevralt nettverk Multimodal diffusjonsmodell Multimodal Doc2Vec Multimodal grafnevrale nettverk Multimodal GRU Multimodal bildeklassifisering Multimodal LDA Topic Model Multimodal navngitt enhetsgjenkjenning Multimodal spørsmålsbesvarelse Multimodal Recurrent Neural Network Multimodal RoBERTa-basert klassifisering Multimodal tekstoppsummering Multimodal Topic Modeling Multimodal transformere Multimodal Vision Transformer Multimodal Word2Vec

Funnet en feil på denne siden? Rapporter eller foreslå en rettelse →

Les hele metoden

Method map

Kilder

Slik siterer du denne siden

Relaterte metoder

Which method?

Referert av