Multimodal BERT-basert klassifisering
Multimodal BERT-basert klassifisering utvider BERT-transformatorarkitekturen for å felles kode og klassifisere data fra flere modaliteter – oftest tekst paret med bilder – ved å fusjonere representasjonene deres før et endelig klassifiseringshode. Introdusert fremtredende rundt 2019 gjennom modeller som MMBT og ViLBERT, har det blitt en standard tilnærming for oppgaver der verken tekst eller bilde alene bærer tilstrekkelig informasjon for nøyaktig merking.
Les hele metoden
Logg inn med en gratis konto for å lese denne delen.
Method map
The neighbourhood of related methods — select a node to explore.
+8 more
Kilder
- Kiela, D., Bhooshan, S., Firooz, H., Perez, E., & Testuggine, D. (2019). Supervised multimodal bitransformers for classifying images and text. arXiv preprint arXiv:1909.02950. link ↗
- Lu, J., Batra, D., Parikh, D., & Lee, S. (2019). ViLBERT: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks. Advances in Neural Information Processing Systems, 32. link ↗
Slik siterer du denne siden
ScholarGate. (2026, June 3). Multimodal BERT-based Classification (Transformer Fusion of Text and Non-text Modalities). ScholarGate. https://scholargate.app/no/deep-learning/multimodal-bert-based-classification
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- CLIPDyp læring↔ compare
- Vision TransformerDyp læring↔ compare
Referert av
Funnet en feil på denne siden? Rapporter eller foreslå en rettelse →