ScholarGate
Assistent
Process / pipeline

PNL Multimodal — Comprensió Visió-Llenguatge

El PNL multimodal és una família de pipelines de processament de llenguatge natural que combinen text amb una o més modalitats de dades addicionals —més comunament imatges, però també àudio i vídeo— per realitzar tasques de comprensió i generació com ara la resposta visual a preguntes, la subtitulació d'imatges i el reconeixement multimodal de sentiments. El camp va adquirir la seva forma moderna amb CLIP (Radford et al., 2021) i des de llavors ha avançat a través d'arquitectures com BLIP-2 (Li et al., 2023) que connecten codificadors d'imatges congelats i models de llenguatge grans.

Obre a MethodMindAviatVídeoAviatDownload slides

Llegeix el mètode complet

Només per a membres

Inicia la sessió amb un compte gratuït per llegir aquesta secció.

Inicia la sessió

Method map

The neighbourhood of related methods — select a node to explore.

Fonts

  1. Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning (ICML), 8748–8763. link
  2. Li, J., Li, D., Savarese, S., & Hoi, S. (2023). BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. Proceedings of the 40th International Conference on Machine Learning (ICML), 19730–19742. link

Com citar aquesta pàgina

ScholarGate. (2026, June 1). Multimodal Natural Language Processing. ScholarGate. https://scholargate.app/ca/text-mining/multimodal-nlp

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side
ScholarGateMultimodal NLP (Multimodal Natural Language Processing). Recuperat el 2026-06-15 de https://scholargate.app/ca/text-mining/multimodal-nlp · Conjunt de dades: https://doi.org/10.5281/zenodo.20539026