Machine learningDeep learning / NLP / CV

Víceúčelová klasifikace založená na BERT

Víceúčelová klasifikace založená na BERT rozšiřuje architekturu transformátoru BERT pro společné kódování a klasifikaci dat z více modalit — nejčastěji textu spárovaného s obrázky — spojením jejich reprezentací před finální klasifikační hlavou. Poprvé výrazněji představena kolem roku 2019 prostřednictvím modelů jako MMBT a ViLBERT, stala se standardním přístupem pro úlohy, kde samotný text ani obrázek neobsahují dostatek informací pro přesné označení.

Otevřít v MethodMindJiž brzyVideoJiž brzyDownload slides

Přečíst celou metodu

Pouze pro členy

Pro přečtení této sekce se přihlaste s bezplatným účtem.

Přihlásit se

Method map

The neighbourhood of related methods — select a node to explore.

Víceúčelová klasifikace založená na BERT

CLIP Vision Transformer Konvoluční neuronová síť…Multimodální difuzní mod…Multimodální Doc2Vec Multimodální grafová neu…Multimodal GRU Multimodální klasifikace…Multimodal LDA Topic Mod…Multimodální rozpoznáván…

+8 more

Zdroje

Kiela, D., Bhooshan, S., Firooz, H., Perez, E., & Testuggine, D. (2019). Supervised multimodal bitransformers for classifying images and text. arXiv preprint arXiv:1909.02950. link ↗
Lu, J., Batra, D., Parikh, D., & Lee, S. (2019). ViLBERT: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks. Advances in Neural Information Processing Systems, 32. link ↗

Jak citovat tuto stránku

ScholarGate. (2026, June 3). Multimodal BERT-based Classification (Transformer Fusion of Text and Non-text Modalities). ScholarGate. https://scholargate.app/cs/deep-learning/multimodal-bert-based-classification

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

CLIPHluboké učení↔ compare
Vision TransformerHluboké učení↔ compare

Compare side by side →

Odkazuje sem

Konvoluční neuronová síť pro více modalit Multimodální difuzní model Multimodální Doc2Vec Multimodální grafová neuronová síť Multimodal GRU Multimodální klasifikace obrazu Multimodal LDA Topic Model Multimodální rozpoznávání pojmenovaných entit Multimodální odpovídání na otázky Multimodální rekurentní neuronová síť Multimodální klasifikace založená na RoBERTa Multimodální sumarizace textu Multimodální modelování témat Multimodální Transformer Multimodální Vision Transformer Multimodal Word2Vec

Našli jste na této stránce chybu? Nahlaste ji nebo navrhněte opravu →

Přečíst celou metodu

Method map

Zdroje

Jak citovat tuto stránku

Příbuzné metody

Which method?

Odkazuje sem