ScholarGate
Asistent
Process / pipeline

NLP multimodal — Înțelegere viziune-limbaj

NLP multimodal este o familie de fluxuri de procesare a limbajului natural care combină textul cu una sau mai multe modalități suplimentare de date — cel mai frecvent imagini, dar și audio și video — pentru a efectua sarcini de înțelegere și generare, cum ar fi răspunsul vizual la întrebări, generarea de descrieri pentru imagini și recunoașterea multimodală a sentimentelor. Domeniul și-a căpătat forma modernă odată cu CLIP (Radford et al., 2021) și de atunci a avansat prin arhitecturi precum BLIP-2 (Li et al., 2023) care pun în legătură codificatoare de imagini înghețate și modele lingvistice mari.

Deschide în MethodMindÎn curândVideoÎn curândDownload slides

Citește metoda completă

Doar pentru membri

Autentifică-te cu un cont gratuit pentru a citi această secțiune.

Autentificare

Method map

The neighbourhood of related methods — select a node to explore.

Surse

  1. Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning (ICML), 8748–8763. link
  2. Li, J., Li, D., Savarese, S., & Hoi, S. (2023). BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. Proceedings of the 40th International Conference on Machine Learning (ICML), 19730–19742. link

Cum se citează această pagină

ScholarGate. (2026, June 1). Multimodal Natural Language Processing. ScholarGate. https://scholargate.app/ro/text-mining/multimodal-nlp

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side
ScholarGateMultimodal NLP (Multimodal Natural Language Processing). Preluat la 2026-06-15 de pe https://scholargate.app/ro/text-mining/multimodal-nlp · Set de date: https://doi.org/10.5281/zenodo.20539026