Classificazione basata su BERT multimodale
La classificazione basata su BERT multimodale estende l'architettura transformer di BERT per codificare e classificare congiuntamente dati da più modalità — più comunemente testo abbinato a immagini — fondendo le loro rappresentazioni prima di una testa di classificazione finale. Introdotta in modo prominente intorno al 2019 attraverso modelli come MMBT e ViLBERT, è diventata un approccio standard per compiti in cui né il testo né l'immagine da soli contengono informazioni sufficienti per un'etichettatura accurata.
Leggi il metodo completo
Accedi con un account gratuito per leggere questa sezione.
Method map
The neighbourhood of related methods — select a node to explore.
+8 more
Fonti
- Kiela, D., Bhooshan, S., Firooz, H., Perez, E., & Testuggine, D. (2019). Supervised multimodal bitransformers for classifying images and text. arXiv preprint arXiv:1909.02950. link ↗
- Lu, J., Batra, D., Parikh, D., & Lee, S. (2019). ViLBERT: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks. Advances in Neural Information Processing Systems, 32. link ↗
Come citare questa pagina
ScholarGate. (2026, June 3). Multimodal BERT-based Classification (Transformer Fusion of Text and Non-text Modalities). ScholarGate. https://scholargate.app/it/deep-learning/multimodal-bert-based-classification
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- CLIPApprendimento profondo↔ compare
- Vision TransformerApprendimento profondo↔ compare
Citato da
Hai notato un problema in questa pagina? Segnalalo o proponi una correzione →