Process / pipeline

NLP Multimodal — Pemahaman Visi-Bahasa

NLP Multimodal adalah keluarga alur pemrosesan bahasa alami yang menggabungkan teks dengan satu atau lebih modalitas data tambahan — paling umum gambar, tetapi juga audio dan video — untuk melakukan tugas pemahaman dan generasi seperti tanya jawab visual, pembuatan keterangan gambar, dan pengenalan sentimen multimodal. Bidang ini mendapatkan bentuk modernnya dengan CLIP (Radford et al., 2021) dan sejak itu telah berkembang melalui arsitektur seperti BLIP-2 (Li et al., 2023) yang menjembatani pengode citra beku dan model bahasa besar.

Buka di MethodMindSegeraVideoSegeraUnduh salindia

Baca metode selengkapnya

Khusus anggota

Masuk dengan akun gratis untuk membaca bagian ini.

Masuk

Peta metode

Lingkup metode terkait — pilih sebuah simpul untuk menjelajah.

NLP Multimodal

Mekanisme Perhatian Embedding BERT Analisis Sentimen Vision Transformer

Sumber

Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning (ICML), 8748–8763. link ↗
Li, J., Li, D., Savarese, S., & Hoi, S. (2023). BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. Proceedings of the 40th International Conference on Machine Learning (ICML), 19730–19742. link ↗

Cara menyitasi halaman ini

ScholarGate. (2026, June 1). Multimodal Natural Language Processing. ScholarGate. https://scholargate.app/id/text-mining/multimodal-nlp

Metode yang mana?

Letakkan metode ini berdampingan dengan kerabat terdekatnya dan baca secara bersisian — pustaka menata bukunya di atas meja; pilihan ada di tangan Anda.

Mekanisme PerhatianPembelajaran Mendalam↔ bandingkan
Embedding BERTPenambangan Teks↔ bandingkan
Analisis SentimenPenambangan Teks↔ bandingkan
Vision TransformerPembelajaran Mendalam↔ bandingkan

Bandingkan berdampingan →

Menemukan masalah di halaman ini? Laporkan atau usulkan perbaikan →