ScholarGate
Asistents
Process / pipeline

Daudzmodālu NLP — izpratne par redzes un valodas mijiedarbību

Daudzmodālu NLP ir dabisko valodu apstrādes (NLP) programmu saime, kas apvieno tekstu ar vienu vai vairākām papildu datu modalitātēm — visbiežāk attēliem, bet arī audio un video — lai veiktu izpratnes un ģenerēšanas uzdevumus, piemēram, vizuālo jautājumu atbildēšanu, attēlu aprakstīšanu un daudzmodālu noskaņojuma atpazīšanu. Šī joma ieguva savu moderno formu ar CLIP (Radford et al., 2021) un kopš tā laika ir attīstījusies, izmantojot tādas arhitektūras kā BLIP-2 (Li et al., 2023), kas savieno fiksētus attēlu kodētājus un lielus valodu modeļus.

Atvērt MethodMindDrīzumāVideoDrīzumāDownload slides

Lasīt pilno metodes aprakstu

Tikai dalībniekiem

Piesakieties ar bezmaksas kontu, lai lasītu šo sadaļu.

Pieteikties

Method map

The neighbourhood of related methods — select a node to explore.

Avoti

  1. Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning (ICML), 8748–8763. link
  2. Li, J., Li, D., Savarese, S., & Hoi, S. (2023). BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. Proceedings of the 40th International Conference on Machine Learning (ICML), 19730–19742. link

Kā citēt šo lapu

ScholarGate. (2026, June 1). Multimodal Natural Language Processing. ScholarGate. https://scholargate.app/lv/text-mining/multimodal-nlp

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side
ScholarGateMultimodal NLP (Multimodal Natural Language Processing). Izgūts 2026-06-15 no https://scholargate.app/lv/text-mining/multimodal-nlp · Datu kopa: https://doi.org/10.5281/zenodo.20539026