Machine learningDeep learning / NLP / CV

Clasificare multimodală bazată pe BERT

Clasificarea multimodală bazată pe BERT extinde arhitectura transformer BERT pentru a codifica și clasifica în mod conjugat date din multiple modalități — cel mai frecvent text asociat cu imagini — prin fuzionarea reprezentărilor lor înainte de un cap de clasificare final. Introdusă proeminent în jurul anului 2019 prin modele precum MMBT și ViLBERT, a devenit o abordare standard pentru sarcini în care nici textul, nici imaginea singură nu conțin informații suficiente pentru o etichetare precisă.

Deschide în MethodMindÎn curândVideoÎn curândDownload slides

Citește metoda completă

Doar pentru membri

Autentifică-te cu un cont gratuit pentru a citi această secțiune.

Autentificare

Method map

The neighbourhood of related methods — select a node to explore.

Clasificare multimodală bazată pe BERT

CLIP Vision Transformer Rețea Neuronală Convoluț…Modelul de difuzie multi…Multimodal Doc2Vec Rețea Neuronală Graf Mul…GRU multimodal Clasificare multimodală…Modelul de topicuri LDA…Recunoaștere multimodală…

+8 more

Surse

Kiela, D., Bhooshan, S., Firooz, H., Perez, E., & Testuggine, D. (2019). Supervised multimodal bitransformers for classifying images and text. arXiv preprint arXiv:1909.02950. link ↗
Lu, J., Batra, D., Parikh, D., & Lee, S. (2019). ViLBERT: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks. Advances in Neural Information Processing Systems, 32. link ↗

Cum se citează această pagină

ScholarGate. (2026, June 3). Multimodal BERT-based Classification (Transformer Fusion of Text and Non-text Modalities). ScholarGate. https://scholargate.app/ro/deep-learning/multimodal-bert-based-classification

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

CLIPÎnvățare profundă↔ compare
Vision TransformerÎnvățare profundă↔ compare

Compare side by side →

Citat de

Rețea Neuronală Convoluțională Multimodală Modelul de difuzie multimodal Multimodal Doc2Vec Rețea Neuronală Graf Multimodală GRU multimodal Clasificare multimodală a imaginilor Modelul de topicuri LDA multimodal Recunoaștere multimodală a entităților numite Răspuns la întrebări multimodal Rețea neuronală recurentă multimodală Clasificare bazată pe RoBERTa multimodală Sumarizare multimodală de text Modelarea tematică multimodală Transformer Multimodal Transformer Vizual Multimodal Word2Vec Multimodal

Ai observat o problemă pe această pagină? Raportează sau sugerează o corectură →

Citește metoda completă

Method map

Surse

Cum se citează această pagină

Metode înrudite

Which method?

Citat de