Przetwarzanie języka naturalnego (NLP) multimodalne — rozumienie obrazu i języka
Przetwarzanie języka naturalnego (NLP) multimodalne to rodzina potoków przetwarzania języka naturalnego, które łączą tekst z jedną lub kilkoma dodatkowymi modalnościami danych — najczęściej obrazami, ale także dźwiękiem i wideo — w celu wykonywania zadań rozumienia i generowania, takich jak wizualne odpowiadanie na pytania, opisywanie obrazów i rozpoznawanie nastroju multimodalnego. Dziedzina ta uzyskała swoją współczesną formę dzięki CLIP (Radford i in., 2021) i od tego czasu rozwijała się dzięki architekturam takim jak BLIP-2 (Li i in., 2023), które łączą zamrożone enkodery obrazów z dużymi modelami językowymi.
Przeczytaj pełny opis metody
Zaloguj się na bezpłatne konto, aby przeczytać tę sekcję.
Method map
The neighbourhood of related methods — select a node to explore.
Źródła
- Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning (ICML), 8748–8763. link ↗
- Li, J., Li, D., Savarese, S., & Hoi, S. (2023). BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. Proceedings of the 40th International Conference on Machine Learning (ICML), 19730–19742. link ↗
Jak cytować tę stronę
ScholarGate. (2026, June 1). Multimodal Natural Language Processing. ScholarGate. https://scholargate.app/pl/text-mining/multimodal-nlp
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Mechanizm uwagiUczenie głębokie↔ compare
- Osadzenia BERTEksploracja tekstu↔ compare
- Analiza sentymentuEksploracja tekstu↔ compare
- Vision TransformerUczenie głębokie↔ compare
Widzisz błąd na tej stronie? Zgłoś go lub zaproponuj poprawkę →