ScholarGate
Assistant

Linguistique de corpus et corpus web

Étudier la langue à travers de vastes échantillons de textes authentiques : construire et interroger des corpus, mesurer les collocations et les fréquences, et exploiter le Web comme une vaste ressource linguistique.

Trouver un sujet avec PaperMindBientôtFind papers & topics
Tools & resources
Télécharger les diapositives
Learn & explore
VidéoBientôt

Definition

La linguistique de corpus est l'étude empirique de la langue basée sur des collections systématiques de textes naturels, analysées à l'aide de mesures de fréquence, de concordance et d'association.

Scope

Couvre la conception, la compilation et l'analyse des corpus textuels — l'échantillonnage et l'équilibre, la concordanciation et l'analyse par mots-clés, les statistiques de fréquence et de collocation telles que l'information mutuelle, et l'utilisation du Web comme corpus. Il aborde à la fois la linguistique de corpus descriptive et la fourniture de données pour les systèmes computationnels. Les schémas d'annotation et les treebanks sont traités dans un sujet connexe.

Core questions

  • Comment les corpus sont-ils échantillonnés pour représenter équitablement une variété linguistique ?
  • Comment les mesures d'association comme l'information mutuelle révèlent-elles les collocations ?
  • Quels sont les avantages et les pièges de l'utilisation du Web comme corpus ?
  • Comment les concordances soutiennent-elles l'analyse linguistique et lexicographique ?

Key concepts

  • conception de corpus
  • concordance
  • collocation
  • information mutuelle ponctuelle
  • distribution de fréquence
  • analyse par mots-clés
  • Web comme corpus
  • corpus équilibré

Key theories

Mesures d'association pour la collocation
Utilisation de statistiques telles que l'information mutuelle ponctuelle pour détecter les paires de mots qui co-occurrent plus souvent que le hasard ne le prédit, révélant ainsi les collocations et soutenant la lexicographie.
Le Web comme corpus
Traiter le Web comme un corpus énorme, bien que non contrôlé, permettant l'étude de phénomènes rares et de variétés à faibles ressources tout en soulevant des questions de représentativité.

History

La linguistique de corpus est née des projets lexicographiques de Sinclair et de la construction de corpus équilibrés, tandis que les travaux de Church et Hanks de 1989 sur l'information mutuelle ont popularisé les mesures d'association statistique. Kilgarriff et Grefenstette ont ensuite établi le Web comme un corpus légitime, bien que bruyant, d'une ampleur sans précédent.

Debates

Représentativité des données du Web
Les corpus web sont immenses mais déséquilibrés et difficiles à caractériser, ce qui suscite un débat sur la mesure dans laquelle les conclusions qui en sont tirées peuvent être généralisées à une langue dans son ensemble.

Key figures

  • Adam Kilgarriff
  • Kenneth Church
  • Patrick Hanks
  • John Sinclair

Related topics

Seminal works

  • church1989
  • kilgarriff2003

Frequently asked questions

Qu'est-ce qu'une collocation ?
Une collocation est une paire ou un groupe de mots qui apparaissent habituellement ensemble plus souvent que le hasard ne le prédit, comme « strong tea » (thé fort) plutôt que « powerful tea » (thé puissant). Les mesures d'association aident à les détecter automatiquement.

Methods for this concept

Related concepts