Klasyfikacja multimodalna oparta na BERT
Klasyfikacja multimodalna oparta na BERT rozszerza architekturę transformera BERT w celu wspólnego kodowania i klasyfikowania danych z wielu modalności — najczęściej tekstu połączonego z obrazami — poprzez fuzję ich reprezentacji przed końcową głowicą klasyfikacyjną. Wprowadzona znacząco około 2019 roku przez modele takie jak MMBT i ViLBERT, stała się standardowym podejściem do zadań, w których ani sam tekst, ani sam obraz nie zawierają wystarczających informacji do dokładnego etykietowania.
Przeczytaj pełny opis metody
Zaloguj się na bezpłatne konto, aby przeczytać tę sekcję.
Method map
The neighbourhood of related methods — select a node to explore.
+8 more
Źródła
- Kiela, D., Bhooshan, S., Firooz, H., Perez, E., & Testuggine, D. (2019). Supervised multimodal bitransformers for classifying images and text. arXiv preprint arXiv:1909.02950. link ↗
- Lu, J., Batra, D., Parikh, D., & Lee, S. (2019). ViLBERT: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks. Advances in Neural Information Processing Systems, 32. link ↗
Jak cytować tę stronę
ScholarGate. (2026, June 3). Multimodal BERT-based Classification (Transformer Fusion of Text and Non-text Modalities). ScholarGate. https://scholargate.app/pl/deep-learning/multimodal-bert-based-classification
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- CLIPUczenie głębokie↔ compare
- Vision TransformerUczenie głębokie↔ compare
Cytowana przez
Widzisz błąd na tej stronie? Zgłoś go lub zaproponuj poprawkę →