Process / pipeline

PNL multimodal — Compreensão Visão-Linguagem

PNL multimodal é uma família de pipelines de processamento de linguagem natural que combinam texto com uma ou mais modalidades de dados adicionais — mais comumente imagens, mas também áudio e vídeo — para realizar tarefas de compreensão e geração, como resposta a perguntas visuais, legendagem de imagens e reconhecimento de sentimento multimodal. O campo ganhou sua forma moderna com CLIP (Radford et al., 2021) e desde então avançou através de arquiteturas como BLIP-2 (Li et al., 2023) que conectam codificadores de imagem congelados e grandes modelos de linguagem.

Abrir no MethodMindEm breveVídeoEm breveBaixar slides

Leia o método completo

Exclusivo para membros

Entre com uma conta gratuita para ler esta seção.

Entrar

Mapa de métodos

A vizinhança de métodos relacionados — selecione um nó para explorar.

PNL multimodal

Mecanismo de Atenção Embeddings BERT Análise de Sentimento Vision Transformer

Fontes

Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning (ICML), 8748–8763. link ↗
Li, J., Li, D., Savarese, S., & Hoi, S. (2023). BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. Proceedings of the 40th International Conference on Machine Learning (ICML), 19730–19742. link ↗

Como citar esta página

ScholarGate. (2026, June 1). Multimodal Natural Language Processing. ScholarGate. https://scholargate.app/pt/text-mining/multimodal-nlp

Qual método?

Coloque este método ao lado dos seus pares mais próximos e leia-os lado a lado — a biblioteca dispõe os livros sobre a mesa; a escolha é sua.

Mecanismo de AtençãoAprendizado profundo↔ comparar
Embeddings BERTMineração de texto↔ comparar
Análise de SentimentoMineração de texto↔ comparar
Vision TransformerAprendizado profundo↔ comparar

Comparar lado a lado →

Encontrou um problema nesta página? Relate ou sugira uma correção →