ScholarGate
Asisten
Process / pipeline

NLP Multimodal — Pemahaman Visi-Bahasa

NLP Multimodal adalah keluarga alur pemrosesan bahasa alami yang menggabungkan teks dengan satu atau lebih modalitas data tambahan — paling umum gambar, tetapi juga audio dan video — untuk melakukan tugas pemahaman dan generasi seperti tanya jawab visual, pembuatan keterangan gambar, dan pengenalan sentimen multimodal. Bidang ini mendapatkan bentuk modernnya dengan CLIP (Radford et al., 2021) dan sejak itu telah berkembang melalui arsitektur seperti BLIP-2 (Li et al., 2023) yang menjembatani pengode citra beku dan model bahasa besar.

Buka di MethodMindSegeraVideoSegeraUnduh salindia

Baca metode selengkapnya

Khusus anggota

Masuk dengan akun gratis untuk membaca bagian ini.

Masuk

Peta metode

Lingkup metode terkait — pilih sebuah simpul untuk menjelajah.

Sumber

  1. Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning (ICML), 8748–8763. link
  2. Li, J., Li, D., Savarese, S., & Hoi, S. (2023). BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. Proceedings of the 40th International Conference on Machine Learning (ICML), 19730–19742. link

Cara menyitasi halaman ini

ScholarGate. (2026, June 1). Multimodal Natural Language Processing. ScholarGate. https://scholargate.app/id/text-mining/multimodal-nlp

Metode yang mana?

Letakkan metode ini berdampingan dengan kerabat terdekatnya dan baca secara bersisian — pustaka menata bukunya di atas meja; pilihan ada di tangan Anda.

Bandingkan berdampingan
ScholarGateMultimodal NLP (Multimodal Natural Language Processing). Diakses 2026-06-15 dari https://scholargate.app/id/text-mining/multimodal-nlp · Set data: https://doi.org/10.5281/zenodo.20539026