NLP Multimodal — Pemahaman Visi-Bahasa
NLP Multimodal adalah keluarga alur pemrosesan bahasa alami yang menggabungkan teks dengan satu atau lebih modalitas data tambahan — paling umum gambar, tetapi juga audio dan video — untuk melakukan tugas pemahaman dan generasi seperti tanya jawab visual, pembuatan keterangan gambar, dan pengenalan sentimen multimodal. Bidang ini mendapatkan bentuk modernnya dengan CLIP (Radford et al., 2021) dan sejak itu telah berkembang melalui arsitektur seperti BLIP-2 (Li et al., 2023) yang menjembatani pengode citra beku dan model bahasa besar.
Baca metode selengkapnya
Masuk dengan akun gratis untuk membaca bagian ini.
Peta metode
Lingkup metode terkait — pilih sebuah simpul untuk menjelajah.
Sumber
- Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning (ICML), 8748–8763. link ↗
- Li, J., Li, D., Savarese, S., & Hoi, S. (2023). BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. Proceedings of the 40th International Conference on Machine Learning (ICML), 19730–19742. link ↗
Cara menyitasi halaman ini
ScholarGate. (2026, June 1). Multimodal Natural Language Processing. ScholarGate. https://scholargate.app/id/text-mining/multimodal-nlp
Metode yang mana?
Letakkan metode ini berdampingan dengan kerabat terdekatnya dan baca secara bersisian — pustaka menata bukunya di atas meja; pilihan ada di tangan Anda.
- Mekanisme PerhatianPembelajaran Mendalam↔ bandingkan
- Embedding BERTPenambangan Teks↔ bandingkan
- Analisis SentimenPenambangan Teks↔ bandingkan
- Vision TransformerPembelajaran Mendalam↔ bandingkan
Menemukan masalah di halaman ini? Laporkan atau usulkan perbaikan →