Daudzmodālu NLP — izpratne par redzes un valodas mijiedarbību
Daudzmodālu NLP ir dabisko valodu apstrādes (NLP) programmu saime, kas apvieno tekstu ar vienu vai vairākām papildu datu modalitātēm — visbiežāk attēliem, bet arī audio un video — lai veiktu izpratnes un ģenerēšanas uzdevumus, piemēram, vizuālo jautājumu atbildēšanu, attēlu aprakstīšanu un daudzmodālu noskaņojuma atpazīšanu. Šī joma ieguva savu moderno formu ar CLIP (Radford et al., 2021) un kopš tā laika ir attīstījusies, izmantojot tādas arhitektūras kā BLIP-2 (Li et al., 2023), kas savieno fiksētus attēlu kodētājus un lielus valodu modeļus.
Lasīt pilno metodes aprakstu
Piesakieties ar bezmaksas kontu, lai lasītu šo sadaļu.
Method map
The neighbourhood of related methods — select a node to explore.
Avoti
- Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning (ICML), 8748–8763. link ↗
- Li, J., Li, D., Savarese, S., & Hoi, S. (2023). BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. Proceedings of the 40th International Conference on Machine Learning (ICML), 19730–19742. link ↗
Kā citēt šo lapu
ScholarGate. (2026, June 1). Multimodal Natural Language Processing. ScholarGate. https://scholargate.app/lv/text-mining/multimodal-nlp
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Attention mechanismDziļā mācīšanās↔ compare
- BERT EmbeddingsTeksta ieguve↔ compare
- Sentimentu analīzeTeksta ieguve↔ compare
- Vision TransformerDziļā mācīšanās↔ compare
Pamanījāt kļūdu šajā lapā? Ziņojiet vai ierosiniet labojumu →