PNL Multimodal — Comprensió Visió-Llenguatge
El PNL multimodal és una família de pipelines de processament de llenguatge natural que combinen text amb una o més modalitats de dades addicionals —més comunament imatges, però també àudio i vídeo— per realitzar tasques de comprensió i generació com ara la resposta visual a preguntes, la subtitulació d'imatges i el reconeixement multimodal de sentiments. El camp va adquirir la seva forma moderna amb CLIP (Radford et al., 2021) i des de llavors ha avançat a través d'arquitectures com BLIP-2 (Li et al., 2023) que connecten codificadors d'imatges congelats i models de llenguatge grans.
Llegeix el mètode complet
Inicia la sessió amb un compte gratuït per llegir aquesta secció.
Method map
The neighbourhood of related methods — select a node to explore.
Fonts
- Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning (ICML), 8748–8763. link ↗
- Li, J., Li, D., Savarese, S., & Hoi, S. (2023). BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. Proceedings of the 40th International Conference on Machine Learning (ICML), 19730–19742. link ↗
Com citar aquesta pàgina
ScholarGate. (2026, June 1). Multimodal Natural Language Processing. ScholarGate. https://scholargate.app/ca/text-mining/multimodal-nlp
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Mecanisme d'atencióAprenentatge profund↔ compare
- BERT EmbeddingsMineria de text↔ compare
- Anàlisi de sentimentsMineria de text↔ compare
- Vision TransformerAprenentatge profund↔ compare
Has vist cap problema en aquesta pàgina? Informa'n o suggereix una correcció →