Corpus arborés et corpus annotés
Des corpus annotés manuellement avec une structure linguistique — arbres syntaxiques, dépendances, sens et entités — qui servent de données d'entraînement et de références (gold standards) pour la linguistique computationnelle.
Definition
Un corpus arboré (treebank) est un corpus dans lequel chaque phrase est annotée avec sa structure syntaxique ; plus largement, un corpus annoté porte des étiquettes linguistiques explicites ajoutées par des humains.
Scope
Ce sujet couvre la conception et la construction de corpus annotés, en particulier les corpus arborés (treebanks) portant sur la syntaxe de constituants ou de dépendances, ainsi que les chaînes d'annotation, les directives et le contrôle qualité qui les sous-tendent. Il inclut la tradition du Penn Treebank et l'effort interlingue des Universal Dependencies, ainsi que le rôle de l'accord inter-annotateurs. La conception générale des corpus et les ressources lexicales sont abordées dans des sujets connexes.
Core questions
- Comment les corpus arborés sont-ils conçus et quels schémas d'annotation utilisent-ils ?
- Pourquoi les corpus annotés sont-ils indispensables pour l'apprentissage supervisé ?
- Comment la qualité de l'annotation est-elle assurée et mesurée ?
- Comment l'annotation interlingue, telle que celle des Universal Dependencies, parvient-elle à la cohérence ?
Key concepts
- corpus arboré
- schéma d'annotation
- directives d'annotation
- référence (gold standard)
- accord inter-annotateurs
- Penn Treebank
- Universal Dependencies
- arbitrage
Key theories
- Apprentissage supervisé basé sur les corpus arborés
- Les corpus syntaxiques annotés manuellement fournissent le signal de supervision qui a rendu possibles l'analyse syntaxique statistique, l'étiquetage et de nombreuses tâches de TALN.
- Annotation harmonisée interlingue
- Universal Dependencies applique un schéma d'annotation unique à travers de nombreuses langues, permettant ainsi des corpus arborés comparables et le transfert de modèles.
History
Le Penn Treebank (1993) a été le premier grand corpus annoté syntaxiquement et a catalysé l'analyse syntaxique statistique. Les corpus arborés ultérieurs ont ajouté des couches sémantiques et discursives, et le projet Universal Dependencies a standardisé l'annotation à travers les langues, devenant ainsi la ressource de facto pour les corpus arborés multilingues.
Debates
- Profondeur de l'annotation versus cohérence
- Une annotation plus riche capture davantage de détails linguistiques mais est plus difficile à appliquer de manière cohérente ; les projets doivent équilibrer la sophistication théorique et une annotation fiable et évolutive.
Key figures
- Mitchell Marcus
- Beatrice Santorini
- Marie-Catherine de Marneffe
- Joakim Nivre
Related topics
Seminal works
- marcus1993
- demarneffe2021
Frequently asked questions
- Pourquoi construire des corpus arborés manuellement si des analyseurs syntaxiques existent ?
- Les analyseurs syntaxiques sont entraînés et évalués à l'aide de corpus arborés annotés par des humains, qui servent de référence (gold standard). Sans annotation manuelle fiable, il n'y aurait rien à apprendre ni aucune base pour mesurer la précision.