Qu'est-ce qui fait un bon corpus ?

Un bon corpus est suffisamment grand pour des statistiques fiables et représentatif de la variété linguistique étudiée, avec une documentation claire de ses sources, de son échantillonnage et de toute annotation afin que les résultats puissent être interprétés et reproduits.

Ressources lexicales et corpus

Les bases de données et de connaissances sur lesquelles s'appuie la linguistique computationnelle empirique : corpus textuels, bases de données lexicales et ontologies, traitements computationnels de la structure des mots et treebanks richement annotés.

Trouver un sujet avec PaperMindBientôtFind papers & topics

Tools & resources

Télécharger les diapositives

Learn & explore

VidéoBientôt

Definition

Les ressources lexicales et de corpus sont des collections structurées de données linguistiques — textes, lexiques et annotations — conçues pour soutenir l'analyse empirique et l'entraînement des systèmes de traitement du langage.

Scope

Couvre la construction, la curation et l'utilisation des ressources linguistiques — corpus équilibrés et corpus web, bases de données lexicales-sémantiques telles que WordNet, morphologie computationnelle et lexiques, et treebanks annotés. Il aborde la conception des corpus, la représentativité, les standards d'annotation et le rôle des ressources dans l'entraînement et l'évaluation des systèmes. La modélisation algorithmique qui consomme ces ressources est couverte dans d'autres domaines.

Sub-topics

Core questions

Comment les corpus sont-ils conçus pour être représentatifs et équilibrés ?
Comment les significations des mots peuvent-elles être organisées en bases de données lexicales lisibles par machine ?
Comment la structure des mots est-elle représentée de manière computationnelle dans les langues morphologiquement riches ?
Pourquoi les treebanks annotés sont-ils essentiels à la linguistique basée sur les données ?

Key concepts

corpus
représentativité
base de données lexicale
WordNet
synset
lexique morphologique
treebank
standard d'annotation

Key theories

Empirisme basé sur les corpus: La position méthodologique selon laquelle les généralisations linguistiques et les paramètres des systèmes devraient être fondés sur de vastes échantillons d'usage attesté plutôt que sur la seule introspection.
Réseaux lexicaux-sémantiques: Organisation du lexique sous forme de graphe de sens liés par des relations telles que la synonymie et l'hyperonymie, comme dans WordNet, supportant des tâches allant de la désambiguïsation à la similarité sémantique.

History

Le passage aux méthodes empiriques dans les années 1990 a rendu les corpus et les ressources lexicales fondamentaux. WordNet a fourni une base de données lexicale-sémantique réutilisable, des corpus équilibrés comme le British National Corpus ont établi des standards de conception, et les travaux de Kilgarriff et Grefenstette ont légitimé le Web lui-même comme un vaste corpus pour l'étude linguistique.

Debates

Corpus équilibrés versus le Web comme corpus: La question de savoir si les corpus soigneusement équilibrés ou le Web, désordonné mais énorme, servent mieux la recherche linguistique ; le domaine utilise de plus en plus les deux, en pesant la représentativité par rapport à l'échelle.

Key figures

Christiane Fellbaum
Adam Kilgarriff
Christopher Manning
George Miller

Seminal works

fellbaum1998
kilgarriff2003
manning1999

Frequently asked questions

Qu'est-ce qui fait un bon corpus ?: Un bon corpus est suffisamment grand pour des statistiques fiables et représentatif de la variété linguistique étudiée, avec une documentation claire de ses sources, de son échantillonnage et de toute annotation afin que les résultats puissent être interprétés et reproduits.