Qu'est-ce qu'une collocation ?

Une collocation est une paire ou un groupe de mots qui apparaissent habituellement ensemble plus souvent que le hasard ne le prédit, comme « strong tea » (thé fort) plutôt que « powerful tea » (thé puissant). Les mesures d'association aident à les détecter automatiquement.

Linguistique de corpus et corpus web

Étudier la langue à travers de vastes échantillons de textes authentiques : construire et interroger des corpus, mesurer les collocations et les fréquences, et exploiter le Web comme une vaste ressource linguistique.

Trouver un sujet avec PaperMindBientôtFind papers & topics

Tools & resources

Télécharger les diapositives

Learn & explore

VidéoBientôt

Definition

La linguistique de corpus est l'étude empirique de la langue basée sur des collections systématiques de textes naturels, analysées à l'aide de mesures de fréquence, de concordance et d'association.

Scope

Couvre la conception, la compilation et l'analyse des corpus textuels — l'échantillonnage et l'équilibre, la concordanciation et l'analyse par mots-clés, les statistiques de fréquence et de collocation telles que l'information mutuelle, et l'utilisation du Web comme corpus. Il aborde à la fois la linguistique de corpus descriptive et la fourniture de données pour les systèmes computationnels. Les schémas d'annotation et les treebanks sont traités dans un sujet connexe.

Core questions

Comment les corpus sont-ils échantillonnés pour représenter équitablement une variété linguistique ?
Comment les mesures d'association comme l'information mutuelle révèlent-elles les collocations ?
Quels sont les avantages et les pièges de l'utilisation du Web comme corpus ?
Comment les concordances soutiennent-elles l'analyse linguistique et lexicographique ?

Key concepts

conception de corpus
concordance
collocation
information mutuelle ponctuelle
distribution de fréquence
analyse par mots-clés
Web comme corpus
corpus équilibré

Key theories

Mesures d'association pour la collocation: Utilisation de statistiques telles que l'information mutuelle ponctuelle pour détecter les paires de mots qui co-occurrent plus souvent que le hasard ne le prédit, révélant ainsi les collocations et soutenant la lexicographie.
Le Web comme corpus: Traiter le Web comme un corpus énorme, bien que non contrôlé, permettant l'étude de phénomènes rares et de variétés à faibles ressources tout en soulevant des questions de représentativité.

History

La linguistique de corpus est née des projets lexicographiques de Sinclair et de la construction de corpus équilibrés, tandis que les travaux de Church et Hanks de 1989 sur l'information mutuelle ont popularisé les mesures d'association statistique. Kilgarriff et Grefenstette ont ensuite établi le Web comme un corpus légitime, bien que bruyant, d'une ampleur sans précédent.

Debates

Représentativité des données du Web: Les corpus web sont immenses mais déséquilibrés et difficiles à caractériser, ce qui suscite un débat sur la mesure dans laquelle les conclusions qui en sont tirées peuvent être généralisées à une langue dans son ensemble.

Key figures

Adam Kilgarriff
Kenneth Church
Patrick Hanks
John Sinclair

Seminal works

church1989
kilgarriff2003

Frequently asked questions

Qu'est-ce qu'une collocation ?: Une collocation est une paire ou un groupe de mots qui apparaissent habituellement ensemble plus souvent que le hasard ne le prédit, comme « strong tea » (thé fort) plutôt que « powerful tea » (thé puissant). Les mesures d'association aident à les détecter automatiquement.