Multimodálna klasifikácia založená na BERT
Multimodálna klasifikácia založená na BERT rozširuje transformačnú architektúru BERT na spoločné kódovanie a klasifikáciu dát z viacerých modalít — najčastejšie textu spárovaného s obrázkami — fúziou ich reprezentácií pred finálnou klasifikačnou hlavou. Predstavená prominentne okolo roku 2019 prostredníctvom modelov ako MMBT a ViLBERT sa stala štandardným prístupom pre úlohy, kde ani samotný text, ani samotný obrázok neobsahuje dostatok informácií na presné označenie.
Prečítať celú metódu
Ak si chcete prečítať túto sekciu, prihláste sa s bezplatným účtom.
Method map
The neighbourhood of related methods — select a node to explore.
+8 more
Zdroje
- Kiela, D., Bhooshan, S., Firooz, H., Perez, E., & Testuggine, D. (2019). Supervised multimodal bitransformers for classifying images and text. arXiv preprint arXiv:1909.02950. link ↗
- Lu, J., Batra, D., Parikh, D., & Lee, S. (2019). ViLBERT: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks. Advances in Neural Information Processing Systems, 32. link ↗
Ako citovať túto stránku
ScholarGate. (2026, June 3). Multimodal BERT-based Classification (Transformer Fusion of Text and Non-text Modalities). ScholarGate. https://scholargate.app/sk/deep-learning/multimodal-bert-based-classification
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- CLIPHlboké učenie↔ compare
- Vision TransformerHlboké učenie↔ compare
Odkazujú sem
Našli ste na tejto stránke chybu? Nahláste ju alebo navrhnite opravu →