Multimodal BERT-baserad klassificering
Multimodal BERT-baserad klassificering utökar BERT-transformatorarkitekturen för att gemensamt koda och klassificera data från flera modaliteter – oftast text parad med bilder – genom att smälta samman deras representationer före ett slutligt klassifikationshuvud. Modellen introducerades framträdande runt 2019 genom modeller som MMBT och ViLBERT och har blivit en standardmetod för uppgifter där varken text eller bild ensamt bär tillräcklig information för korrekt etikettering.
Läs hela metoden
Logga in med ett kostnadsfritt konto för att läsa avsnittet.
Method map
The neighbourhood of related methods — select a node to explore.
+8 more
Källor
- Kiela, D., Bhooshan, S., Firooz, H., Perez, E., & Testuggine, D. (2019). Supervised multimodal bitransformers for classifying images and text. arXiv preprint arXiv:1909.02950. link ↗
- Lu, J., Batra, D., Parikh, D., & Lee, S. (2019). ViLBERT: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks. Advances in Neural Information Processing Systems, 32. link ↗
Så citerar du den här sidan
ScholarGate. (2026, June 3). Multimodal BERT-based Classification (Transformer Fusion of Text and Non-text Modalities). ScholarGate. https://scholargate.app/sv/deep-learning/multimodal-bert-based-classification
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- CLIPDjupinlärning↔ compare
- Vision TransformerDjupinlärning↔ compare
Refereras av
Hittade du ett fel på sidan? Rapportera eller föreslå en rättelse →