Process / pipeline

Мультимодальная обработка естественного языка — понимание текста и визуальной информации

Мультимодальная обработка естественного языка (ОЕЯ) — это семейство конвейеров обработки естественного языка, которые объединяют текст с одной или несколькими дополнительными модальностями данных — чаще всего изображениями, но также аудио и видео — для выполнения задач понимания и генерации, таких как визуальный ответ на вопросы, создание подписей к изображениям и распознавание мультимодальных настроений. Эта область приобрела свою современную форму с появлением CLIP (Radford et al., 2021) и с тех пор развивалась благодаря архитектурам, таким как BLIP-2 (Li et al., 2023), которые связывают замороженные энкодеры изображений и большие языковые модели.

Открыть в MethodMindСкороВидеоСкороСкачать слайды

Читать метод полностью

Только для участников

Войдите с бесплатным аккаунтом, чтобы прочитать этот раздел.

Войти

Карта метода

Окружение родственных методов — выберите узел, чтобы перейти к нему.

Мультимодальная обработка естественного языка

Механизм внимания Векторные представления…Анализ тональности Vision Transformer

Источники

Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning (ICML), 8748–8763. link ↗
Li, J., Li, D., Savarese, S., & Hoi, S. (2023). BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. Proceedings of the 40th International Conference on Machine Learning (ICML), 19730–19742. link ↗

Как цитировать эту страницу

ScholarGate. (2026, June 1). Multimodal Natural Language Processing. ScholarGate. https://scholargate.app/ru/text-mining/multimodal-nlp

Какой метод?

Поставьте этот метод рядом с ближайшими родственными и прочитайте их бок о бок — библиотека выкладывает книги на стол, а выбор за вами.

Механизм вниманияГлубокое обучение↔ сравнить
Векторные представления BERTИнтеллектуальный анализ текста↔ сравнить
Анализ тональностиИнтеллектуальный анализ текста↔ сравнить
Vision TransformerГлубокое обучение↔ сравнить

Сравнить рядом →

Нашли ошибку на этой странице? Сообщите о ней или предложите исправление →