Machine learningDeep learning / NLP / CV

Klasyfikacja multimodalna oparta na BERT

Klasyfikacja multimodalna oparta na BERT rozszerza architekturę transformera BERT w celu wspólnego kodowania i klasyfikowania danych z wielu modalności — najczęściej tekstu połączonego z obrazami — poprzez fuzję ich reprezentacji przed końcową głowicą klasyfikacyjną. Wprowadzona znacząco około 2019 roku przez modele takie jak MMBT i ViLBERT, stała się standardowym podejściem do zadań, w których ani sam tekst, ani sam obraz nie zawierają wystarczających informacji do dokładnego etykietowania.

Otwórz w MethodMindWkrótceWideoWkrótceDownload slides

Przeczytaj pełny opis metody

Tylko dla członków

Zaloguj się na bezpłatne konto, aby przeczytać tę sekcję.

Zaloguj się

Method map

The neighbourhood of related methods — select a node to explore.

Klasyfikacja multimodalna oparta na BERT

CLIP Vision Transformer Wielomodalna sieć neuron…Model dyfuzyjny multimod…Multimodal Doc2Vec Wielomodalna grafowa sie…Multimodal GRU Klasyfikacja multimodaln…Wielomodalny model temat…Wielomodalne rozpoznawan…

+8 more

Źródła

Kiela, D., Bhooshan, S., Firooz, H., Perez, E., & Testuggine, D. (2019). Supervised multimodal bitransformers for classifying images and text. arXiv preprint arXiv:1909.02950. link ↗
Lu, J., Batra, D., Parikh, D., & Lee, S. (2019). ViLBERT: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks. Advances in Neural Information Processing Systems, 32. link ↗

Jak cytować tę stronę

ScholarGate. (2026, June 3). Multimodal BERT-based Classification (Transformer Fusion of Text and Non-text Modalities). ScholarGate. https://scholargate.app/pl/deep-learning/multimodal-bert-based-classification

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

CLIPUczenie głębokie↔ compare
Vision TransformerUczenie głębokie↔ compare

Compare side by side →

Cytowana przez

Wielomodalna sieć neuronowa konwolucyjna Model dyfuzyjny multimodalny Multimodal Doc2Vec Wielomodalna grafowa sieć neuronowa Multimodal GRU Klasyfikacja multimodalna obrazów Wielomodalny model tematów LDA Wielomodalne rozpoznawanie nazw własnych Odpowiadanie na pytania multimodalne Wielomodalna rekurencyjna sieć neuronowa Klasyfikacja multimodalna oparta na modelu RoBERTa Streszczanie multimodalnych tekstów Modelowanie tematów multimodalnych Transformator multimodalny Multimodal Vision Transformer Multimodal Word2Vec

Widzisz błąd na tej stronie? Zgłoś go lub zaproponuj poprawkę →

Przeczytaj pełny opis metody

Method map

Źródła

Jak cytować tę stronę

Metody pokrewne

Which method?

Cytowana przez