ScholarGate
Асистент
Process / pipeline

Багатомодальна обробка природної мови — Розуміння «зображення-мова»

Багатомодальна обробка природної мови (ОПМ) — це сімейство конвеєрів обробки природної мови, які поєднують текст з однією або кількома додатковими модальностями даних — найчастіше зображеннями, але також аудіо та відео — для виконання завдань розуміння та генерації, таких як візуальне запитання-відповідь, створення підписів до зображень та багатомодальне розпізнавання настроїв. Ця галузь набула своєї сучасної форми завдяки CLIP (Radford et al., 2021) і відтоді розвивалася через архітектури, такі як BLIP-2 (Li et al., 2023), що поєднують заморожені енкодери зображень та великі мовні моделі.

Відкрити у MethodMindНезабаромВідеоНезабаромЗавантажити слайди

Читати метод повністю

Лише для учасників

Увійдіть із безкоштовним обліковим записом, щоб прочитати цей розділ.

Увійти

Карта методів

Околиця споріднених методів — виберіть вузол, щоб дослідити.

Джерела

  1. Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning (ICML), 8748–8763. link
  2. Li, J., Li, D., Savarese, S., & Hoi, S. (2023). BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. Proceedings of the 40th International Conference on Machine Learning (ICML), 19730–19742. link

Як цитувати цю сторінку

ScholarGate. (2026, June 1). Multimodal Natural Language Processing. ScholarGate. https://scholargate.app/uk/text-mining/multimodal-nlp

Який метод?

Поставте цей метод поруч із його найближчими спорідненими й читайте їх пліч-о-пліч — бібліотека викладає книги на стіл; вибір за вами.

Порівняти поруч
ScholarGateMultimodal NLP (Multimodal Natural Language Processing). Отримано 2026-06-15 з https://scholargate.app/uk/text-mining/multimodal-nlp · Набір даних: https://doi.org/10.5281/zenodo.20539026