ScholarGate
Assistent

Korpuslinguistik und Webkorpora

Sprachstudien anhand großer Stichproben authentischer Texte: Erstellung und Abfrage von Korpora, Messung von Kollokationen und Frequenzen sowie Nutzung des Webs als umfassende linguistische Ressource.

Thema finden mit PaperMindDemnächstFind papers & topics
Tools & resources
Folien herunterladen
Learn & explore
VideoDemnächst

Definition

Korpuslinguistik ist die empirische Untersuchung von Sprache auf der Grundlage systematischer Sammlungen natürlich vorkommender Texte, die mit Frequenz-, Konkordanz- und Assoziationsmaßen analysiert werden.

Scope

Umfasst das Design, die Kompilierung und die Analyse von Textkorpora – Stichprobenziehung und Ausgewogenheit, Konkordanz- und Schlüsselwortanalyse, Frequenz- und Kollokationsstatistiken wie Mutual Information sowie die Nutzung des Webs als Korpus. Es behandelt sowohl die deskriptive Korpuslinguistik als auch die Bereitstellung von Daten für computergestützte Systeme. Annotationsschemata und Treebanks werden in einem verwandten Thema behandelt.

Core questions

  • Wie werden Korpora beprobt, um eine Sprachvarietät fair zu repräsentieren?
  • Wie decken Assoziationsmaße wie Mutual Information Kollokationen auf?
  • Was sind die Vorteile und Fallstricke der Nutzung des Webs als Korpus?
  • Wie unterstützen Konkordanzen die linguistische und lexikographische Analyse?

Key concepts

  • Korpusdesign
  • Konkordanz
  • Kollokation
  • punktweise Mutual Information
  • Frequenzverteilung
  • Schlüsselwortanalyse
  • Web als Korpus
  • ausgewogenes Korpus

Key theories

Assoziationsmaße für Kollokationen
Verwendung von Statistiken wie der punktweisen Mutual Information, um Wortpaare zu erkennen, die häufiger als zufällig zusammen auftreten, wodurch Kollokationen aufgedeckt und die Lexikographie unterstützt werden.
Web als Korpus
Behandlung des Webs als ein riesiges, wenn auch unkontrolliertes Korpus, das die Untersuchung seltener Phänomene und ressourcenarmer Varietäten ermöglicht, während es Fragen der Repräsentativität aufwirft.

History

Die Korpuslinguistik entwickelte sich aus Sinclairs lexikographischen Projekten und der Konstruktion ausgewogener Korpora, während Churchs und Hanks' Arbeit von 1989 über Mutual Information statistische Assoziationsmaße in den Mainstream brachte. Kilgarriff und Grefenstette etablierten später das Web als ein legitimes, wenn auch 'verrauschtes', Korpus von beispiellosem Umfang.

Debates

Repräsentativität von Webdaten
Webkorpora sind riesig, aber unausgewogen und schwer zu charakterisieren, was eine Debatte darüber auslöst, inwieweit daraus gezogene Schlussfolgerungen auf eine Sprache als Ganzes verallgemeinerbar sind.

Key figures

  • Adam Kilgarriff
  • Kenneth Church
  • Patrick Hanks
  • John Sinclair

Related topics

Seminal works

  • church1989
  • kilgarriff2003

Frequently asked questions

Was ist eine Kollokation?
Eine Kollokation ist ein Paar oder eine Gruppe von Wörtern, die gewohnheitsmäßig häufiger zusammen auftreten, als es der Zufall vorhersagen würde, wie z. B. 'starker Tee' statt 'kraftvoller Tee'. Assoziationsmaße helfen, sie automatisch zu erkennen.

Methods for this concept

Related concepts