Linguistique de corpus et corpus web
Étudier la langue à travers de vastes échantillons de textes authentiques : construire et interroger des corpus, mesurer les collocations et les fréquences, et exploiter le Web comme une vaste ressource linguistique.
Definition
La linguistique de corpus est l'étude empirique de la langue basée sur des collections systématiques de textes naturels, analysées à l'aide de mesures de fréquence, de concordance et d'association.
Scope
Couvre la conception, la compilation et l'analyse des corpus textuels — l'échantillonnage et l'équilibre, la concordanciation et l'analyse par mots-clés, les statistiques de fréquence et de collocation telles que l'information mutuelle, et l'utilisation du Web comme corpus. Il aborde à la fois la linguistique de corpus descriptive et la fourniture de données pour les systèmes computationnels. Les schémas d'annotation et les treebanks sont traités dans un sujet connexe.
Core questions
- Comment les corpus sont-ils échantillonnés pour représenter équitablement une variété linguistique ?
- Comment les mesures d'association comme l'information mutuelle révèlent-elles les collocations ?
- Quels sont les avantages et les pièges de l'utilisation du Web comme corpus ?
- Comment les concordances soutiennent-elles l'analyse linguistique et lexicographique ?
Key concepts
- conception de corpus
- concordance
- collocation
- information mutuelle ponctuelle
- distribution de fréquence
- analyse par mots-clés
- Web comme corpus
- corpus équilibré
Key theories
- Mesures d'association pour la collocation
- Utilisation de statistiques telles que l'information mutuelle ponctuelle pour détecter les paires de mots qui co-occurrent plus souvent que le hasard ne le prédit, révélant ainsi les collocations et soutenant la lexicographie.
- Le Web comme corpus
- Traiter le Web comme un corpus énorme, bien que non contrôlé, permettant l'étude de phénomènes rares et de variétés à faibles ressources tout en soulevant des questions de représentativité.
History
La linguistique de corpus est née des projets lexicographiques de Sinclair et de la construction de corpus équilibrés, tandis que les travaux de Church et Hanks de 1989 sur l'information mutuelle ont popularisé les mesures d'association statistique. Kilgarriff et Grefenstette ont ensuite établi le Web comme un corpus légitime, bien que bruyant, d'une ampleur sans précédent.
Debates
- Représentativité des données du Web
- Les corpus web sont immenses mais déséquilibrés et difficiles à caractériser, ce qui suscite un débat sur la mesure dans laquelle les conclusions qui en sont tirées peuvent être généralisées à une langue dans son ensemble.
Key figures
- Adam Kilgarriff
- Kenneth Church
- Patrick Hanks
- John Sinclair
Related topics
Seminal works
- church1989
- kilgarriff2003
Frequently asked questions
- Qu'est-ce qu'une collocation ?
- Une collocation est une paire ou un groupe de mots qui apparaissent habituellement ensemble plus souvent que le hasard ne le prédit, comme « strong tea » (thé fort) plutôt que « powerful tea » (thé puissant). Les mesures d'association aident à les détecter automatiquement.