ScholarGate
Assistant

Ressources lexicales et corpus

Les bases de données et de connaissances sur lesquelles s'appuie la linguistique computationnelle empirique : corpus textuels, bases de données lexicales et ontologies, traitements computationnels de la structure des mots et treebanks richement annotés.

Trouver un sujet avec PaperMindBientôtFind papers & topics
Tools & resources
Télécharger les diapositives
Learn & explore
VidéoBientôt

Definition

Les ressources lexicales et de corpus sont des collections structurées de données linguistiques — textes, lexiques et annotations — conçues pour soutenir l'analyse empirique et l'entraînement des systèmes de traitement du langage.

Scope

Couvre la construction, la curation et l'utilisation des ressources linguistiques — corpus équilibrés et corpus web, bases de données lexicales-sémantiques telles que WordNet, morphologie computationnelle et lexiques, et treebanks annotés. Il aborde la conception des corpus, la représentativité, les standards d'annotation et le rôle des ressources dans l'entraînement et l'évaluation des systèmes. La modélisation algorithmique qui consomme ces ressources est couverte dans d'autres domaines.

Sub-topics

Core questions

  • Comment les corpus sont-ils conçus pour être représentatifs et équilibrés ?
  • Comment les significations des mots peuvent-elles être organisées en bases de données lexicales lisibles par machine ?
  • Comment la structure des mots est-elle représentée de manière computationnelle dans les langues morphologiquement riches ?
  • Pourquoi les treebanks annotés sont-ils essentiels à la linguistique basée sur les données ?

Key concepts

  • corpus
  • représentativité
  • base de données lexicale
  • WordNet
  • synset
  • lexique morphologique
  • treebank
  • standard d'annotation

Key theories

Empirisme basé sur les corpus
La position méthodologique selon laquelle les généralisations linguistiques et les paramètres des systèmes devraient être fondés sur de vastes échantillons d'usage attesté plutôt que sur la seule introspection.
Réseaux lexicaux-sémantiques
Organisation du lexique sous forme de graphe de sens liés par des relations telles que la synonymie et l'hyperonymie, comme dans WordNet, supportant des tâches allant de la désambiguïsation à la similarité sémantique.

History

Le passage aux méthodes empiriques dans les années 1990 a rendu les corpus et les ressources lexicales fondamentaux. WordNet a fourni une base de données lexicale-sémantique réutilisable, des corpus équilibrés comme le British National Corpus ont établi des standards de conception, et les travaux de Kilgarriff et Grefenstette ont légitimé le Web lui-même comme un vaste corpus pour l'étude linguistique.

Debates

Corpus équilibrés versus le Web comme corpus
La question de savoir si les corpus soigneusement équilibrés ou le Web, désordonné mais énorme, servent mieux la recherche linguistique ; le domaine utilise de plus en plus les deux, en pesant la représentativité par rapport à l'échelle.

Key figures

  • Christiane Fellbaum
  • Adam Kilgarriff
  • Christopher Manning
  • George Miller

Related topics

Seminal works

  • fellbaum1998
  • kilgarriff2003
  • manning1999

Frequently asked questions

Qu'est-ce qui fait un bon corpus ?
Un bon corpus est suffisamment grand pour des statistiques fiables et représentatif de la variété linguistique étudiée, avec une documentation claire de ses sources, de son échantillonnage et de toute annotation afin que les résultats puissent être interprétés et reproduits.

Methods for this concept

Related concepts