Process / pipeline

PNL Multimodal — Comprensió Visió-Llenguatge

El PNL multimodal és una família de pipelines de processament de llenguatge natural que combinen text amb una o més modalitats de dades addicionals —més comunament imatges, però també àudio i vídeo— per realitzar tasques de comprensió i generació com ara la resposta visual a preguntes, la subtitulació d'imatges i el reconeixement multimodal de sentiments. El camp va adquirir la seva forma moderna amb CLIP (Radford et al., 2021) i des de llavors ha avançat a través d'arquitectures com BLIP-2 (Li et al., 2023) que connecten codificadors d'imatges congelats i models de llenguatge grans.

Obre a MethodMindAviatVídeoAviatDownload slides

Llegeix el mètode complet

Només per a membres

Inicia la sessió amb un compte gratuït per llegir aquesta secció.

Inicia la sessió

Method map

The neighbourhood of related methods — select a node to explore.

PNL Multimodal

Mecanisme d'atenció BERT Embeddings Anàlisi de sentiments Vision Transformer

Fonts

Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning (ICML), 8748–8763. link ↗
Li, J., Li, D., Savarese, S., & Hoi, S. (2023). BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. Proceedings of the 40th International Conference on Machine Learning (ICML), 19730–19742. link ↗

Com citar aquesta pàgina

ScholarGate. (2026, June 1). Multimodal Natural Language Processing. ScholarGate. https://scholargate.app/ca/text-mining/multimodal-nlp

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Mecanisme d'atencióAprenentatge profund↔ compare
BERT EmbeddingsMineria de text↔ compare
Anàlisi de sentimentsMineria de text↔ compare
Vision TransformerAprenentatge profund↔ compare

Compare side by side →

Has vist cap problema en aquesta pàgina? Informa'n o suggereix una correcció →