Machine learningDeep learning / NLP / CV

Multimodális BERT-alapú osztályozás

A multimodális BERT-alapú osztályozás kiterjeszti a BERT transzformer architektúrát, hogy közösen kódolja és osztályozza a több modalitásból származó adatokat – leggyakrabban szöveget képekkel párosítva – azáltal, hogy a reprezentációikat egy végső osztályozó fej előtt egyesíti. A 2019 környékén kiemelkedően megjelent MMBT és ViLBERT modelleken keresztül vált a standard megközelítéssé olyan feladatoknál, ahol sem a szöveg, sem a kép önmagában nem hordoz elegendő információt a pontos címkézéshez.

Megnyitás itt: MethodMindHamarosanVideóHamarosanDownload slides

A teljes módszer elolvasása

Csak tagoknak

Jelentkezzen be ingyenes fiókkal a szakasz elolvasásához.

Bejelentkezés

Method map

The neighbourhood of related methods — select a node to explore.

Multimodális BERT-alapú osztályozás

CLIP Vision Transformer Multimodális konvolúciós…Multimodális diffúziós m…Multimodal Doc2Vec Multimodális Gráfnöveked…Multimodal GRU Multimodális képbesorolás Multimodal LDA Témamodell Multimodális elnevezett…

+8 more

Források

Kiela, D., Bhooshan, S., Firooz, H., Perez, E., & Testuggine, D. (2019). Supervised multimodal bitransformers for classifying images and text. arXiv preprint arXiv:1909.02950. link ↗
Lu, J., Batra, D., Parikh, D., & Lee, S. (2019). ViLBERT: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks. Advances in Neural Information Processing Systems, 32. link ↗

Hogyan hivatkozzon erre az oldalra

ScholarGate. (2026, June 3). Multimodal BERT-based Classification (Transformer Fusion of Text and Non-text Modalities). ScholarGate. https://scholargate.app/hu/deep-learning/multimodal-bert-based-classification

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

CLIPMélytanulás↔ compare
Vision TransformerMélytanulás↔ compare

Compare side by side →

Hivatkozik rá

Multimodális konvolúciós neurális hálózat Multimodális diffúziós modell Multimodal Doc2Vec Multimodális Gráfnövekedési Hálózat Multimodal GRU Multimodális képbesorolás Multimodal LDA Témamodell Multimodális elnevezett entitás felismerés Multimodális kérdésmegválaszolás Multimodális Rekurrens Neurális Hálózat Multimodális RoBERTa-alapú osztályozás Multimodális szövegösszegzés Multimodális témamodellezés Multimodális transzformer Multimodális Vizuális Transzformer Multimodal Word2Vec

Hibát talált ezen az oldalon? Jelentse, vagy javasoljon javítást →

A teljes módszer elolvasása

Method map

Források

Hogyan hivatkozzon erre az oldalra

Kapcsolódó módszerek

Which method?

Hivatkozik rá