ScholarGate
Assistant
Process / pipeline

Traitement automatique du langage naturel multimodal — Compréhension vision-langage

Le traitement automatique du langage naturel (TALN) multimodal est une famille de pipelines qui combinent le texte avec une ou plusieurs modalités de données supplémentaires — le plus souvent des images, mais aussi de l'audio et de la vidéo — pour effectuer des tâches de compréhension et de génération telles que la réponse visuelle aux questions, le légendage d'images et la reconnaissance de sentiments multimodaux. Ce domaine a pris sa forme moderne avec CLIP (Radford et al., 2021) et a depuis progressé à travers des architectures telles que BLIP-2 (Li et al., 2023) qui relient des encodeurs d'images figés et de grands modèles de langage.

Ouvrir dans MethodMindBientôtVidéoBientôtTélécharger les diapositives

Lire la méthode complète

Réservé aux membres

Connectez-vous avec un compte gratuit pour lire cette section.

Se connecter

Carte des méthodes

Le voisinage des méthodes apparentées — sélectionnez un nœud pour explorer.

Traitement automatique du langage naturel multimodal
Mécanisme d'attentionEmbeddings BERTAnalyse des sentimentsVision Transformer

Sources

  1. Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning (ICML), 8748–8763. link
  2. Li, J., Li, D., Savarese, S., & Hoi, S. (2023). BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. Proceedings of the 40th International Conference on Machine Learning (ICML), 19730–19742. link

Comment citer cette page

ScholarGate. (2026, June 1). Multimodal Natural Language Processing. ScholarGate. https://scholargate.app/fr/text-mining/multimodal-nlp

Quelle méthode ?

Placez cette méthode aux côtés de ses plus proches parentes et lisez-les côte à côte — la bibliothèque pose les ouvrages sur la table ; le choix vous revient.

Comparer côte à côte
ScholarGateMultimodal NLP (Multimodal Natural Language Processing). Consulté le 2026-06-15 sur https://scholargate.app/fr/text-mining/multimodal-nlp · Jeu de données : https://doi.org/10.5281/zenodo.20539026