ScholarGate
Ассистент
Process / pipeline

Мультимодальная обработка естественного языка — понимание текста и визуальной информации

Мультимодальная обработка естественного языка (ОЕЯ) — это семейство конвейеров обработки естественного языка, которые объединяют текст с одной или несколькими дополнительными модальностями данных — чаще всего изображениями, но также аудио и видео — для выполнения задач понимания и генерации, таких как визуальный ответ на вопросы, создание подписей к изображениям и распознавание мультимодальных настроений. Эта область приобрела свою современную форму с появлением CLIP (Radford et al., 2021) и с тех пор развивалась благодаря архитектурам, таким как BLIP-2 (Li et al., 2023), которые связывают замороженные энкодеры изображений и большие языковые модели.

Открыть в MethodMindСкороВидеоСкороСкачать слайды

Читать метод полностью

Только для участников

Войдите с бесплатным аккаунтом, чтобы прочитать этот раздел.

Войти

Карта метода

Окружение родственных методов — выберите узел, чтобы перейти к нему.

Источники

  1. Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning (ICML), 8748–8763. link
  2. Li, J., Li, D., Savarese, S., & Hoi, S. (2023). BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. Proceedings of the 40th International Conference on Machine Learning (ICML), 19730–19742. link

Как цитировать эту страницу

ScholarGate. (2026, June 1). Multimodal Natural Language Processing. ScholarGate. https://scholargate.app/ru/text-mining/multimodal-nlp

Какой метод?

Поставьте этот метод рядом с ближайшими родственными и прочитайте их бок о бок — библиотека выкладывает книги на стол, а выбор за вами.

Сравнить рядом
ScholarGateMultimodal NLP (Multimodal Natural Language Processing). Получено 2026-06-15 из https://scholargate.app/ru/text-mining/multimodal-nlp · Набор данных: https://doi.org/10.5281/zenodo.20539026