PNL multimodal — Compreensão Visão-Linguagem
PNL multimodal é uma família de pipelines de processamento de linguagem natural que combinam texto com uma ou mais modalidades de dados adicionais — mais comumente imagens, mas também áudio e vídeo — para realizar tarefas de compreensão e geração, como resposta a perguntas visuais, legendagem de imagens e reconhecimento de sentimento multimodal. O campo ganhou sua forma moderna com CLIP (Radford et al., 2021) e desde então avançou através de arquiteturas como BLIP-2 (Li et al., 2023) que conectam codificadores de imagem congelados e grandes modelos de linguagem.
Leia o método completo
Entre com uma conta gratuita para ler esta seção.
Mapa de métodos
A vizinhança de métodos relacionados — selecione um nó para explorar.
Fontes
- Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning (ICML), 8748–8763. link ↗
- Li, J., Li, D., Savarese, S., & Hoi, S. (2023). BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. Proceedings of the 40th International Conference on Machine Learning (ICML), 19730–19742. link ↗
Como citar esta página
ScholarGate. (2026, June 1). Multimodal Natural Language Processing. ScholarGate. https://scholargate.app/pt/text-mining/multimodal-nlp
Qual método?
Coloque este método ao lado dos seus pares mais próximos e leia-os lado a lado — a biblioteca dispõe os livros sobre a mesa; a escolha é sua.
- Mecanismo de AtençãoAprendizado profundo↔ comparar
- Embeddings BERTMineração de texto↔ comparar
- Análise de SentimentoMineração de texto↔ comparar
- Vision TransformerAprendizado profundo↔ comparar
Encontrou um problema nesta página? Relate ou sugira uma correção →