Traitement Automatique du Langage Naturel
Le traitement automatique du langage naturel est le domaine de l'intelligence artificielle qui vise à permettre aux ordinateurs d'analyser, de comprendre et de générer le langage humain, qu'il soit textuel ou parlé.
Definition
Le traitement automatique du langage naturel est l'étude et l'ingénierie des méthodes qui permettent aux ordinateurs de faire correspondre le langage humain à des représentations structurées de sa forme et de son sens, soutenant des tâches allant de l'analyse syntaxique et de la traduction à l'extraction et à la génération.
Scope
Ce domaine couvre le traitement computationnel du langage humain à travers ses niveaux de structure : morphologie et syntaxe (analyse syntaxique), sémantique et représentation du sens, discours, et des applications telles que la traduction automatique et l'extraction d'informations. Il traite des modèles formels du langage (grammaires, représentations logiques et distributionnelles du sens) et des tâches d'analyse et de production du langage. Les méthodes générales d'apprentissage statistique et neuronal qui entraînent les modèles de langage modernes font partie du sous-domaine de l'apprentissage automatique ; ce domaine met l'accent sur la structure linguistique, les tâches et les représentations spécifiques au langage.
Sub-topics
Core questions
- Comment la structure grammaticale d'une phrase est-elle récupérée à partir d'une séquence de mots ?
- Comment le sens des mots, des phrases et du discours peut-il être représenté de manière computationnelle ?
- Comment l'ambiguïté, omniprésente à chaque niveau du langage, est-elle résolue en utilisant le contexte ?
- Comment les capacités de compréhension du langage sont-elles transformées en applications telles que la traduction et l'extraction ?
Key concepts
- morphologie et segmentation (tokenization)
- syntaxe et analyse syntaxique
- sémantique et représentation du sens
- ambiguïté et désambiguïsation
- discours et pragmatique
- modèles de langage
- traduction automatique
- extraction d'informations
Key theories
- Niveaux d'analyse linguistique
- Le langage est analysé à des niveaux distincts mais interactifs — phonologie, morphologie, syntaxe, sémantique, pragmatique et discours — et les systèmes de TALN sont organisés autour de la récupération de la structure et du sens à ces niveaux.
- Grammaires et analyse syntaxique
- Les grammaires formelles, en particulier les grammaires hors contexte et les formalismes plus riches, modélisent la structure syntaxique du langage, et les algorithmes d'analyse syntaxique récupèrent cette structure, fournissant une base pour l'analyse du sens.
- Modélisation statistique et distributionnelle du langage
- Traiter le langage de manière probabiliste — en modélisant la probabilité des séquences de mots et en représentant le sens des mots par le contexte distributionnel — a conféré au TALN une robustesse face à l'ambiguïté et à la variation, et est devenu le paradigme dominant.
Clinical relevance
Le traitement automatique du langage naturel alimente les moteurs de recherche, la traduction automatique, les systèmes de questions-réponses et de discussion (chat), la reconnaissance vocale et le dialogue, l'analyse des sentiments, et l'extraction d'informations structurées à partir de texte dans des domaines tels que la biomédecine et le droit, ce qui en fait l'un des domaines de l'IA les plus visiblement déployés.
History
Le TALN a débuté avec la traduction automatique des années 1950 et les systèmes symboliques des années 1960-70, tels que SHRDLU de Winograd. Les méthodes statistiques ont gagné en importance à partir de la fin des années 1980, consolidées dans des textes tels que Manning et Schütze (1999), et les méthodes neuronales et les modèles de langage à grande échelle ont ensuite transformé le domaine ; ses tâches et ses fondations linguistiques restent une partie standard de l'IA.
Debates
- Approches symboliques vs. statistiques et neuronales
- Le TALN a longtemps oscillé entre les grammaires et règles symboliques construites manuellement et les modèles statistiques ou neuronaux basés sur les données ; le virage statistique et les méthodes neuronales ultérieures ont fini par dominer pour leur robustesse, bien que les questions d'interprétabilité et d'intégration de la structure linguistique persistent.
Key figures
- Daniel Jurafsky
- James H. Martin
- Christopher D. Manning
- Terry Winograd
- Karen Spärck Jones
Related topics
Seminal works
- winograd1972
- manning1999
- jurafsky2023
Frequently asked questions
- Quelle est la différence entre le traitement automatique du langage naturel et la linguistique computationnelle ?
- Les termes se chevauchent fortement. La linguistique computationnelle met l'accent sur l'utilisation de la computation pour comprendre et modéliser le langage humain en tant que phénomène scientifique, tandis que le traitement automatique du langage naturel met l'accent sur l'ingénierie de systèmes qui exécutent des tâches linguistiques utiles. En pratique, les mêmes modèles et méthodes servent les deux objectifs.
- Pourquoi l'ambiguïté est-elle un problème si central en TALN ?
- Le langage humain est ambigu à tous les niveaux : les mots ont plusieurs sens, les phrases ont plusieurs analyses syntaxiques possibles, et les références peuvent être peu claires. Une grande partie du TALN consiste à utiliser le contexte et des modèles probabilistes ou appris pour choisir l'interprétation qu'un humain ferait, ce qui rend le domaine difficile.