ScholarGate
Assistant

Corpus arborés et corpus annotés

Des corpus annotés manuellement avec une structure linguistique — arbres syntaxiques, dépendances, sens et entités — qui servent de données d'entraînement et de références (gold standards) pour la linguistique computationnelle.

Trouver un sujet avec PaperMindBientôtFind papers & topics
Tools & resources
Télécharger les diapositives
Learn & explore
VidéoBientôt

Definition

Un corpus arboré (treebank) est un corpus dans lequel chaque phrase est annotée avec sa structure syntaxique ; plus largement, un corpus annoté porte des étiquettes linguistiques explicites ajoutées par des humains.

Scope

Ce sujet couvre la conception et la construction de corpus annotés, en particulier les corpus arborés (treebanks) portant sur la syntaxe de constituants ou de dépendances, ainsi que les chaînes d'annotation, les directives et le contrôle qualité qui les sous-tendent. Il inclut la tradition du Penn Treebank et l'effort interlingue des Universal Dependencies, ainsi que le rôle de l'accord inter-annotateurs. La conception générale des corpus et les ressources lexicales sont abordées dans des sujets connexes.

Core questions

  • Comment les corpus arborés sont-ils conçus et quels schémas d'annotation utilisent-ils ?
  • Pourquoi les corpus annotés sont-ils indispensables pour l'apprentissage supervisé ?
  • Comment la qualité de l'annotation est-elle assurée et mesurée ?
  • Comment l'annotation interlingue, telle que celle des Universal Dependencies, parvient-elle à la cohérence ?

Key concepts

  • corpus arboré
  • schéma d'annotation
  • directives d'annotation
  • référence (gold standard)
  • accord inter-annotateurs
  • Penn Treebank
  • Universal Dependencies
  • arbitrage

Key theories

Apprentissage supervisé basé sur les corpus arborés
Les corpus syntaxiques annotés manuellement fournissent le signal de supervision qui a rendu possibles l'analyse syntaxique statistique, l'étiquetage et de nombreuses tâches de TALN.
Annotation harmonisée interlingue
Universal Dependencies applique un schéma d'annotation unique à travers de nombreuses langues, permettant ainsi des corpus arborés comparables et le transfert de modèles.

History

Le Penn Treebank (1993) a été le premier grand corpus annoté syntaxiquement et a catalysé l'analyse syntaxique statistique. Les corpus arborés ultérieurs ont ajouté des couches sémantiques et discursives, et le projet Universal Dependencies a standardisé l'annotation à travers les langues, devenant ainsi la ressource de facto pour les corpus arborés multilingues.

Debates

Profondeur de l'annotation versus cohérence
Une annotation plus riche capture davantage de détails linguistiques mais est plus difficile à appliquer de manière cohérente ; les projets doivent équilibrer la sophistication théorique et une annotation fiable et évolutive.

Key figures

  • Mitchell Marcus
  • Beatrice Santorini
  • Marie-Catherine de Marneffe
  • Joakim Nivre

Related topics

Seminal works

  • marcus1993
  • demarneffe2021

Frequently asked questions

Pourquoi construire des corpus arborés manuellement si des analyseurs syntaxiques existent ?
Les analyseurs syntaxiques sont entraînés et évalués à l'aide de corpus arborés annotés par des humains, qui servent de référence (gold standard). Sans annotation manuelle fiable, il n'y aurait rien à apprendre ni aucune base pour mesurer la précision.

Methods for this concept

Related concepts