Analyse syntaxique et formalismes grammaticaux
Récupération de la structure grammaticale des phrases par machine : les formalismes grammaticaux qui décrivent les structures valides et les algorithmes qui les calculent, des arbres de constituants aux graphes de dépendance.
Definition
L'analyse syntaxique est l'attribution computationnelle d'une structure grammaticale à une chaîne d'entrée selon une grammaire ; les formalismes grammaticaux sont les systèmes utilisés pour spécifier quelles structures sont valides.
Scope
Couvre l'analyse syntaxique en linguistique computationnelle — l'analyse syntaxique par constituants sans contexte et ses algorithmes probabilistes et basés sur des tableaux (chart parsing), l'analyse syntaxique par dépendances, les principaux formalismes grammaticaux au-delà des grammaires sans contexte simples, et les tâches d'étiquetage de séquences (telles que l'étiquetage morphosyntaxique) qui alimentent l'analyse. Il exclut l'interprétation sémantique, traitée en sémantique computationnelle, et la théorie des automates sous-jacente, couverte dans les fondements.
Sub-topics
Core questions
- Comment une phrase peut-elle se voir attribuer efficacement un arbre syntaxique ou un graphe de dépendance ?
- Quels formalismes grammaticaux capturent adéquatement la syntaxe des langues naturelles ?
- Comment les probabilités aident-elles à désambiguïser parmi de nombreuses analyses possibles ?
- Comment l'étiquetage et le découpage (chunking) soutiennent-ils l'analyse syntaxique complète ?
Key concepts
- analyse par constituants
- analyse par dépendances
- grammaire sans contexte
- analyse par tableaux (chart parsing)
- grammaire probabiliste
- étiquetage morphosyntaxique
- corpus arboré (treebank)
- ambiguïté structurelle
Key theories
- Analyse par tableaux (chart parsing)
- Algorithmes de programmation dynamique tels que CKY et Earley qui calculent toutes les analyses possibles d'une phrase en temps polynomial en réutilisant les sous-analyses partagées.
- Grammaires sans contexte probabilistes
- Attacher des probabilités aux règles de grammaire afin de pouvoir sélectionner l'analyse la plus probable, abordant ainsi l'ambiguïté structurelle omniprésente du langage naturel.
History
Les premières analyses syntaxiques reposaient sur des grammaires construites manuellement et une recherche exhaustive ; les algorithmes CKY et Earley ont rendu l'analyse syntaxique sans contexte efficace. La publication de treebanks dans les années 1990 a permis l'analyse syntaxique probabiliste basée sur les données, et les années 2000 ont vu l'analyse syntaxique par dépendances prendre de l'importance pour sa robustesse interlinguistique, plus tard supplantée par les analyseurs neuronaux.
Debates
- Représentation par constituants versus représentation par dépendances
- La question de savoir si la syntaxe est mieux représentée sous forme de syntagmes imbriqués ou de relations tête-dépendance étiquetées ; les deux sont largement utilisées, la dépendance étant privilégiée pour les langues à ordre des mots libre et les tâches en aval.
Key figures
- Jay Earley
- Joakim Nivre
- Christopher Manning
- Mitchell Marcus
Related topics
Seminal works
- manning1999
- kubler2009
- jurafsky2025
Frequently asked questions
- Pourquoi l'analyse syntaxique est-elle difficile si les règles grammaticales sont connues ?
- Les phrases naturelles sont massivement ambiguës : une seule chaîne peut avoir de nombreuses structures valides. L'analyse syntaxique doit donc non seulement trouver des structures, mais aussi les classer, c'est pourquoi les modèles probabilistes et appris sont essentiels.