Ressources lexicales et corpus
Les bases de données et de connaissances sur lesquelles s'appuie la linguistique computationnelle empirique : corpus textuels, bases de données lexicales et ontologies, traitements computationnels de la structure des mots et treebanks richement annotés.
Definition
Les ressources lexicales et de corpus sont des collections structurées de données linguistiques — textes, lexiques et annotations — conçues pour soutenir l'analyse empirique et l'entraînement des systèmes de traitement du langage.
Scope
Couvre la construction, la curation et l'utilisation des ressources linguistiques — corpus équilibrés et corpus web, bases de données lexicales-sémantiques telles que WordNet, morphologie computationnelle et lexiques, et treebanks annotés. Il aborde la conception des corpus, la représentativité, les standards d'annotation et le rôle des ressources dans l'entraînement et l'évaluation des systèmes. La modélisation algorithmique qui consomme ces ressources est couverte dans d'autres domaines.
Sub-topics
Core questions
- Comment les corpus sont-ils conçus pour être représentatifs et équilibrés ?
- Comment les significations des mots peuvent-elles être organisées en bases de données lexicales lisibles par machine ?
- Comment la structure des mots est-elle représentée de manière computationnelle dans les langues morphologiquement riches ?
- Pourquoi les treebanks annotés sont-ils essentiels à la linguistique basée sur les données ?
Key concepts
- corpus
- représentativité
- base de données lexicale
- WordNet
- synset
- lexique morphologique
- treebank
- standard d'annotation
Key theories
- Empirisme basé sur les corpus
- La position méthodologique selon laquelle les généralisations linguistiques et les paramètres des systèmes devraient être fondés sur de vastes échantillons d'usage attesté plutôt que sur la seule introspection.
- Réseaux lexicaux-sémantiques
- Organisation du lexique sous forme de graphe de sens liés par des relations telles que la synonymie et l'hyperonymie, comme dans WordNet, supportant des tâches allant de la désambiguïsation à la similarité sémantique.
History
Le passage aux méthodes empiriques dans les années 1990 a rendu les corpus et les ressources lexicales fondamentaux. WordNet a fourni une base de données lexicale-sémantique réutilisable, des corpus équilibrés comme le British National Corpus ont établi des standards de conception, et les travaux de Kilgarriff et Grefenstette ont légitimé le Web lui-même comme un vaste corpus pour l'étude linguistique.
Debates
- Corpus équilibrés versus le Web comme corpus
- La question de savoir si les corpus soigneusement équilibrés ou le Web, désordonné mais énorme, servent mieux la recherche linguistique ; le domaine utilise de plus en plus les deux, en pesant la représentativité par rapport à l'échelle.
Key figures
- Christiane Fellbaum
- Adam Kilgarriff
- Christopher Manning
- George Miller
Related topics
Seminal works
- fellbaum1998
- kilgarriff2003
- manning1999
Frequently asked questions
- Qu'est-ce qui fait un bon corpus ?
- Un bon corpus est suffisamment grand pour des statistiques fiables et représentatif de la variété linguistique étudiée, avec une documentation claire de ses sources, de son échantillonnage et de toute annotation afin que les résultats puissent être interprétés et reproduits.