Багатомодальна обробка природної мови — Розуміння «зображення-мова»
Багатомодальна обробка природної мови (ОПМ) — це сімейство конвеєрів обробки природної мови, які поєднують текст з однією або кількома додатковими модальностями даних — найчастіше зображеннями, але також аудіо та відео — для виконання завдань розуміння та генерації, таких як візуальне запитання-відповідь, створення підписів до зображень та багатомодальне розпізнавання настроїв. Ця галузь набула своєї сучасної форми завдяки CLIP (Radford et al., 2021) і відтоді розвивалася через архітектури, такі як BLIP-2 (Li et al., 2023), що поєднують заморожені енкодери зображень та великі мовні моделі.
Читати метод повністю
Увійдіть із безкоштовним обліковим записом, щоб прочитати цей розділ.
Карта методів
Околиця споріднених методів — виберіть вузол, щоб дослідити.
Джерела
- Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning (ICML), 8748–8763. link ↗
- Li, J., Li, D., Savarese, S., & Hoi, S. (2023). BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. Proceedings of the 40th International Conference on Machine Learning (ICML), 19730–19742. link ↗
Як цитувати цю сторінку
ScholarGate. (2026, June 1). Multimodal Natural Language Processing. ScholarGate. https://scholargate.app/uk/text-mining/multimodal-nlp
Який метод?
Поставте цей метод поруч із його найближчими спорідненими й читайте їх пліч-о-пліч — бібліотека викладає книги на стіл; вибір за вами.
- Механізм увагиГлибоке навчання↔ порівняти
- BERT EmbeddingsІнтелектуальний аналіз тексту↔ порівняти
- Сентимент-аналізІнтелектуальний аналіз тексту↔ порівняти
- Трансформер для комп'ютерного зоруГлибоке навчання↔ порівняти
Помітили помилку на цій сторінці? Повідомте про неї або запропонуйте виправлення →