ScholarGate
Pembantu
Process / pipeline

Pemrosesan Bahasa Alami Multimodus — Pemahaman Visi-Bahasa

Pemrosesan Bahasa Alami Multimodus (Multimodal NLP) ialah satu keluarga saluran pemrosesan bahasa alami yang menggabungkan teks dengan satu atau lebih modaliti data tambahan — paling lazimnya imej, tetapi juga audio dan video — untuk melaksanakan tugasan pemahaman dan penjanaan seperti menjawab soalan visual, penghasilan kapsyen imej, dan pengecaman sentimen multimodus. Bidang ini memperoleh bentuk modennya dengan CLIP (Radford et al., 2021) dan sejak itu telah maju melalui seni bina seperti BLIP-2 (Li et al., 2023) yang menjambungkan pengekod imej beku dan model bahasa besar.

Buka dalam MethodMindTidak lama lagiVideoTidak lama lagiDownload slides

Baca kaedah sepenuhnya

Ahli sahaja

Log masuk dengan akaun percuma untuk membaca bahagian ini.

Log masuk

Method map

The neighbourhood of related methods — select a node to explore.

Sumber

  1. Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning (ICML), 8748–8763. link
  2. Li, J., Li, D., Savarese, S., & Hoi, S. (2023). BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. Proceedings of the 40th International Conference on Machine Learning (ICML), 19730–19742. link

Cara memetik halaman ini

ScholarGate. (2026, June 1). Multimodal Natural Language Processing. ScholarGate. https://scholargate.app/ms/text-mining/multimodal-nlp

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side
ScholarGateMultimodal NLP (Multimodal Natural Language Processing). Dicapai 2026-06-15 daripada https://scholargate.app/ms/text-mining/multimodal-nlp · Set data: https://doi.org/10.5281/zenodo.20539026