Analyse syntaxique
L'analyse syntaxique est la tâche de reconstituer la structure grammaticale d'une phrase, en lui attribuant un arbre de constituants ou une structure de dépendance qui montre comment les mots se combinent et se rapportent.
Definition
L'analyse syntaxique associe une phrase à une représentation de sa structure grammaticale — généralement un arbre de constituants (syntagmatique) ou un graphe de dépendances — selon une grammaire ou un modèle appris à partir de données annotées.
Scope
Ce sujet couvre l'analyse de la structure des phrases : les grammaires hors-contexte (context-free) et plus riches, l'analyse en constituants (arbres syntagmatiques) et l'analyse en dépendances (relations tête-dépendance), les algorithmes classiques d'analyse tabulaire (chart-parsing) tels que CKY et Earley, ainsi que l'analyse probabiliste et basée sur les données (data-driven) entraînée sur des corpus arborés (treebanks). Il aborde la manière dont l'ambiguïté syntaxique est représentée et résolue. L'utilisation en aval de la structure syntaxique pour calculer le sens est traitée dans le cadre de la sémantique computationnelle.
Core questions
- Comment la structure grammaticale d'une phrase est-elle représentée, sous forme de constituants ou de dépendances ?
- Comment les algorithmes d'analyse tabulaire explorent-ils efficacement les nombreuses analyses possibles d'une phrase ?
- Comment l'ambiguïté syntaxique est-elle gérée, et comment les modèles probabilistes choisissent-ils parmi les analyses ?
- Comment les analyseurs sont-ils entraînés et évalués à l'aide de corpus annotés (treebanks) ?
Key concepts
- arbres de constituants (syntagmatiques)
- structures de dépendance
- grammaire hors-contexte
- analyse CKY et Earley
- grammaire hors-contexte probabiliste
- ambiguïté syntaxique
- corpus arborés (treebanks)
- étiquettes de partie du discours (part-of-speech tags)
Key theories
- Grammaires hors-contexte et analyse tabulaire
- Les grammaires hors-contexte modélisent la structure syntagmatique, et les analyseurs tabulaires (chart parsers) basés sur la programmation dynamique, tels que les algorithmes CKY et Earley, retrouvent toutes les analyses valides en temps polynomial en réutilisant les analyses des sous-séquences.
- Analyse probabiliste
- L'attribution de probabilités aux règles de grammaire (comme dans les grammaires hors-contexte probabilistes) permet à un analyseur de classer les analyses concurrentes et de sélectionner la structure la plus probable, abordant ainsi l'ambiguïté omniprésente de la syntaxe du langage naturel.
- Corpus arborés (treebanks) et analyse basée sur les données
- De grands corpus annotés, tels que le Penn Treebank, ont fourni les données d'entraînement et d'évaluation qui ont transformé l'analyse syntaxique en une tâche basée sur les données, permettant le développement d'analyseurs statistiques, puis neuronaux, appris à partir de structures annotées par des humains.
Clinical relevance
L'analyse syntaxique soutient la vérification grammaticale, l'extraction d'informations, la réponse aux questions et la traduction automatique, en révélant comment les mots se regroupent et se rapportent ; la structure de dépendance en particulier est largement utilisée comme entrée pour les systèmes sémantiques et d'extraction en aval.
History
L'analyse syntaxique s'est développée à partir des grammaires formelles de Chomsky ; les algorithmes CKY (années 1960) et Earley (1970) ont permis une analyse hors-contexte efficace. Le Penn Treebank (1993) a catalysé l'analyse statistique, et les analyseurs probabilistes, puis neuronaux, ont progressivement amélioré la précision et la robustesse sur des textes réels.
Key figures
- Noam Chomsky
- Tadao Kasami
- Jay Earley
- Mitchell P. Marcus
- Christopher D. Manning
Related topics
Seminal works
- marcus1993
- jurafsky2023
Frequently asked questions
- Quelle est la différence entre l'analyse en constituants et l'analyse en dépendances ?
- L'analyse en constituants regroupe les mots en syntagmes imbriqués (tels que les syntagmes nominaux et les syntagmes verbaux), produisant un arbre de constituants. L'analyse en dépendances, quant à elle, relie chaque mot au mot dont il dépend (sa tête), produisant un graphe de relations grammaticales. Les deux méthodes capturent la structure syntaxique mais mettent l'accent sur des aspects différents.
- Pourquoi l'analyse syntaxique est-elle difficile malgré des grammaires bien définies ?
- Les phrases en langage naturel sont très ambiguës : une seule phrase peut avoir de nombreuses structures grammaticalement valides, et leur nombre peut croître rapidement avec la longueur de la phrase. Choisir l'analyse prévue nécessite des préférences statistiques ou apprises, et pas seulement une grammaire, ce qui rend l'analyse syntaxique difficile.