Process / pipeline

Pemrosesan Bahasa Alami Multimodus — Pemahaman Visi-Bahasa

Pemrosesan Bahasa Alami Multimodus (Multimodal NLP) ialah satu keluarga saluran pemrosesan bahasa alami yang menggabungkan teks dengan satu atau lebih modaliti data tambahan — paling lazimnya imej, tetapi juga audio dan video — untuk melaksanakan tugasan pemahaman dan penjanaan seperti menjawab soalan visual, penghasilan kapsyen imej, dan pengecaman sentimen multimodus. Bidang ini memperoleh bentuk modennya dengan CLIP (Radford et al., 2021) dan sejak itu telah maju melalui seni bina seperti BLIP-2 (Li et al., 2023) yang menjambungkan pengekod imej beku dan model bahasa besar.

Buka dalam MethodMindTidak lama lagiVideoTidak lama lagiDownload slides

Baca kaedah sepenuhnya

Ahli sahaja

Log masuk dengan akaun percuma untuk membaca bahagian ini.

Log masuk

Method map

The neighbourhood of related methods — select a node to explore.

Pemrosesan Bahasa Alami Multimodus

Mekanisme Perhatian Sematik BERT Analisis Sentimen Transformer Visi

Sumber

Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning (ICML), 8748–8763. link ↗
Li, J., Li, D., Savarese, S., & Hoi, S. (2023). BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. Proceedings of the 40th International Conference on Machine Learning (ICML), 19730–19742. link ↗

Cara memetik halaman ini

ScholarGate. (2026, June 1). Multimodal Natural Language Processing. ScholarGate. https://scholargate.app/ms/text-mining/multimodal-nlp

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Mekanisme PerhatianPembelajaran Mendalam↔ compare
Sematik BERTPerlombongan Teks↔ compare
Analisis SentimenPerlombongan Teks↔ compare
Transformer VisiPembelajaran Mendalam↔ compare

Compare side by side →

Terjumpa masalah pada halaman ini? Laporkan atau cadangkan pembetulan →