Process / pipeline

NLP multimodal — Înțelegere viziune-limbaj

NLP multimodal este o familie de fluxuri de procesare a limbajului natural care combină textul cu una sau mai multe modalități suplimentare de date — cel mai frecvent imagini, dar și audio și video — pentru a efectua sarcini de înțelegere și generare, cum ar fi răspunsul vizual la întrebări, generarea de descrieri pentru imagini și recunoașterea multimodală a sentimentelor. Domeniul și-a căpătat forma modernă odată cu CLIP (Radford et al., 2021) și de atunci a avansat prin arhitecturi precum BLIP-2 (Li et al., 2023) care pun în legătură codificatoare de imagini înghețate și modele lingvistice mari.

Deschide în MethodMindÎn curândVideoÎn curândDownload slides

Citește metoda completă

Doar pentru membri

Autentifică-te cu un cont gratuit pentru a citi această secțiune.

Autentificare

Method map

The neighbourhood of related methods — select a node to explore.

NLP multimodal

Mecanismul de atenție Embeddings BERT Analiza sentimentelor Vision Transformer

Surse

Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning (ICML), 8748–8763. link ↗
Li, J., Li, D., Savarese, S., & Hoi, S. (2023). BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. Proceedings of the 40th International Conference on Machine Learning (ICML), 19730–19742. link ↗

Cum se citează această pagină

ScholarGate. (2026, June 1). Multimodal Natural Language Processing. ScholarGate. https://scholargate.app/ro/text-mining/multimodal-nlp

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Mecanismul de atențieÎnvățare profundă↔ compare
Embeddings BERTMineritul textelor↔ compare
Analiza sentimentelorMineritul textelor↔ compare
Vision TransformerÎnvățare profundă↔ compare

Compare side by side →

Ai observat o problemă pe această pagină? Raportează sau sugerează o corectură →