Machine learningDeep learning / NLP / CV

Klasifikasi Berbasis BERT Multimodal

Klasifikasi berbasis BERT multimodal memperluas arsitektur transformer BERT untuk bersama-sama mengkodekan dan mengklasifikasikan data dari berbagai modalitas — paling umum teks yang dipasangkan dengan gambar — dengan menggabungkan representasi mereka sebelum kepala klasifikasi akhir. Diperkenalkan secara menonjol sekitar tahun 2019 melalui model seperti MMBT dan ViLBERT, ini telah menjadi pendekatan standar untuk tugas-tugas di mana teks atau gambar saja tidak membawa informasi yang cukup untuk pelabelan yang akurat.

Buka di MethodMindSegeraVideoSegeraDownload slides

Baca metode selengkapnya

Khusus anggota

Masuk dengan akun gratis untuk membaca bagian ini.

Masuk

Method map

The neighbourhood of related methods — select a node to explore.

Klasifikasi Berbasis BERT Multimodal

CLIP Vision Transformer Jaringan Saraf Konvolusi…Model Difusi Multimodal Multimodal Doc2Vec Jaringan Saraf Graf Mult…GRU Multimodal Klasifikasi Citra Multim…Model Topik LDA Multimod…Pengenalan Entitas Berna…

+8 more

Sumber

Kiela, D., Bhooshan, S., Firooz, H., Perez, E., & Testuggine, D. (2019). Supervised multimodal bitransformers for classifying images and text. arXiv preprint arXiv:1909.02950. link ↗
Lu, J., Batra, D., Parikh, D., & Lee, S. (2019). ViLBERT: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks. Advances in Neural Information Processing Systems, 32. link ↗

Cara menyitasi halaman ini

ScholarGate. (2026, June 3). Multimodal BERT-based Classification (Transformer Fusion of Text and Non-text Modalities). ScholarGate. https://scholargate.app/id/deep-learning/multimodal-bert-based-classification

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

CLIPPembelajaran Mendalam↔ compare
Vision TransformerPembelajaran Mendalam↔ compare

Compare side by side →

Dirujuk oleh

Jaringan Saraf Konvolusional Multimodal Model Difusi Multimodal Multimodal Doc2Vec Jaringan Saraf Graf Multimodal GRU Multimodal Klasifikasi Citra Multimodal Model Topik LDA Multimodal Pengenalan Entitas Bernama Multimodal Tanya Jawab Multimodal Jaringan Saraf Berulang Multimodal Klasifikasi Multimodal Berbasis RoBERTa Ringkasan Teks Multimodal Pemodelan Topik Multimodal Transformer Multimodal Vision Transformer Multimodal Word2Vec Multimodal

Menemukan masalah di halaman ini? Laporkan atau usulkan perbaikan →

Baca metode selengkapnya

Method map

Sumber

Cara menyitasi halaman ini

Metode terkait

Which method?

Dirujuk oleh