ScholarGate
Assistente
Process / pipeline

PNL multimodal — Compreensão Visão-Linguagem

PNL multimodal é uma família de pipelines de processamento de linguagem natural que combinam texto com uma ou mais modalidades de dados adicionais — mais comumente imagens, mas também áudio e vídeo — para realizar tarefas de compreensão e geração, como resposta a perguntas visuais, legendagem de imagens e reconhecimento de sentimento multimodal. O campo ganhou sua forma moderna com CLIP (Radford et al., 2021) e desde então avançou através de arquiteturas como BLIP-2 (Li et al., 2023) que conectam codificadores de imagem congelados e grandes modelos de linguagem.

Abrir no MethodMindEm breveVídeoEm breveBaixar slides

Leia o método completo

Exclusivo para membros

Entre com uma conta gratuita para ler esta seção.

Entrar

Mapa de métodos

A vizinhança de métodos relacionados — selecione um nó para explorar.

Fontes

  1. Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning (ICML), 8748–8763. link
  2. Li, J., Li, D., Savarese, S., & Hoi, S. (2023). BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. Proceedings of the 40th International Conference on Machine Learning (ICML), 19730–19742. link

Como citar esta página

ScholarGate. (2026, June 1). Multimodal Natural Language Processing. ScholarGate. https://scholargate.app/pt/text-mining/multimodal-nlp

Qual método?

Coloque este método ao lado dos seus pares mais próximos e leia-os lado a lado — a biblioteca dispõe os livros sobre a mesa; a escolha é sua.

Comparar lado a lado
ScholarGateMultimodal NLP (Multimodal Natural Language Processing). Recuperado em 2026-06-15 de https://scholargate.app/pt/text-mining/multimodal-nlp · Conjunto de dados: https://doi.org/10.5281/zenodo.20539026