Pourquoi construire des corpus arborés manuellement si des analyseurs syntaxiques existent ?

Les analyseurs syntaxiques sont entraînés et évalués à l'aide de corpus arborés annotés par des humains, qui servent de référence (gold standard). Sans annotation manuelle fiable, il n'y aurait rien à apprendre ni aucune base pour mesurer la précision.

Corpus arborés et corpus annotés

Des corpus annotés manuellement avec une structure linguistique — arbres syntaxiques, dépendances, sens et entités — qui servent de données d'entraînement et de références (gold standards) pour la linguistique computationnelle.

Trouver un sujet avec PaperMindBientôtFind papers & topics

Tools & resources

Télécharger les diapositives

Learn & explore

VidéoBientôt

Definition

Un corpus arboré (treebank) est un corpus dans lequel chaque phrase est annotée avec sa structure syntaxique ; plus largement, un corpus annoté porte des étiquettes linguistiques explicites ajoutées par des humains.

Scope

Ce sujet couvre la conception et la construction de corpus annotés, en particulier les corpus arborés (treebanks) portant sur la syntaxe de constituants ou de dépendances, ainsi que les chaînes d'annotation, les directives et le contrôle qualité qui les sous-tendent. Il inclut la tradition du Penn Treebank et l'effort interlingue des Universal Dependencies, ainsi que le rôle de l'accord inter-annotateurs. La conception générale des corpus et les ressources lexicales sont abordées dans des sujets connexes.

Core questions

Comment les corpus arborés sont-ils conçus et quels schémas d'annotation utilisent-ils ?
Pourquoi les corpus annotés sont-ils indispensables pour l'apprentissage supervisé ?
Comment la qualité de l'annotation est-elle assurée et mesurée ?
Comment l'annotation interlingue, telle que celle des Universal Dependencies, parvient-elle à la cohérence ?

Key concepts

corpus arboré
schéma d'annotation
directives d'annotation
référence (gold standard)
accord inter-annotateurs
Penn Treebank
Universal Dependencies
arbitrage

Key theories

Apprentissage supervisé basé sur les corpus arborés: Les corpus syntaxiques annotés manuellement fournissent le signal de supervision qui a rendu possibles l'analyse syntaxique statistique, l'étiquetage et de nombreuses tâches de TALN.
Annotation harmonisée interlingue: Universal Dependencies applique un schéma d'annotation unique à travers de nombreuses langues, permettant ainsi des corpus arborés comparables et le transfert de modèles.

History

Le Penn Treebank (1993) a été le premier grand corpus annoté syntaxiquement et a catalysé l'analyse syntaxique statistique. Les corpus arborés ultérieurs ont ajouté des couches sémantiques et discursives, et le projet Universal Dependencies a standardisé l'annotation à travers les langues, devenant ainsi la ressource de facto pour les corpus arborés multilingues.

Debates

Profondeur de l'annotation versus cohérence: Une annotation plus riche capture davantage de détails linguistiques mais est plus difficile à appliquer de manière cohérente ; les projets doivent équilibrer la sophistication théorique et une annotation fiable et évolutive.

Key figures

Mitchell Marcus
Beatrice Santorini
Marie-Catherine de Marneffe
Joakim Nivre

Seminal works

marcus1993
demarneffe2021

Frequently asked questions

Pourquoi construire des corpus arborés manuellement si des analyseurs syntaxiques existent ?: Les analyseurs syntaxiques sont entraînés et évalués à l'aide de corpus arborés annotés par des humains, qui servent de référence (gold standard). Sans annotation manuelle fiable, il n'y aurait rien à apprendre ni aucune base pour mesurer la précision.