Korpuslinguistik und Webkorpora
Sprachstudien anhand großer Stichproben authentischer Texte: Erstellung und Abfrage von Korpora, Messung von Kollokationen und Frequenzen sowie Nutzung des Webs als umfassende linguistische Ressource.
Definition
Korpuslinguistik ist die empirische Untersuchung von Sprache auf der Grundlage systematischer Sammlungen natürlich vorkommender Texte, die mit Frequenz-, Konkordanz- und Assoziationsmaßen analysiert werden.
Scope
Umfasst das Design, die Kompilierung und die Analyse von Textkorpora – Stichprobenziehung und Ausgewogenheit, Konkordanz- und Schlüsselwortanalyse, Frequenz- und Kollokationsstatistiken wie Mutual Information sowie die Nutzung des Webs als Korpus. Es behandelt sowohl die deskriptive Korpuslinguistik als auch die Bereitstellung von Daten für computergestützte Systeme. Annotationsschemata und Treebanks werden in einem verwandten Thema behandelt.
Core questions
- Wie werden Korpora beprobt, um eine Sprachvarietät fair zu repräsentieren?
- Wie decken Assoziationsmaße wie Mutual Information Kollokationen auf?
- Was sind die Vorteile und Fallstricke der Nutzung des Webs als Korpus?
- Wie unterstützen Konkordanzen die linguistische und lexikographische Analyse?
Key concepts
- Korpusdesign
- Konkordanz
- Kollokation
- punktweise Mutual Information
- Frequenzverteilung
- Schlüsselwortanalyse
- Web als Korpus
- ausgewogenes Korpus
Key theories
- Assoziationsmaße für Kollokationen
- Verwendung von Statistiken wie der punktweisen Mutual Information, um Wortpaare zu erkennen, die häufiger als zufällig zusammen auftreten, wodurch Kollokationen aufgedeckt und die Lexikographie unterstützt werden.
- Web als Korpus
- Behandlung des Webs als ein riesiges, wenn auch unkontrolliertes Korpus, das die Untersuchung seltener Phänomene und ressourcenarmer Varietäten ermöglicht, während es Fragen der Repräsentativität aufwirft.
History
Die Korpuslinguistik entwickelte sich aus Sinclairs lexikographischen Projekten und der Konstruktion ausgewogener Korpora, während Churchs und Hanks' Arbeit von 1989 über Mutual Information statistische Assoziationsmaße in den Mainstream brachte. Kilgarriff und Grefenstette etablierten später das Web als ein legitimes, wenn auch 'verrauschtes', Korpus von beispiellosem Umfang.
Debates
- Repräsentativität von Webdaten
- Webkorpora sind riesig, aber unausgewogen und schwer zu charakterisieren, was eine Debatte darüber auslöst, inwieweit daraus gezogene Schlussfolgerungen auf eine Sprache als Ganzes verallgemeinerbar sind.
Key figures
- Adam Kilgarriff
- Kenneth Church
- Patrick Hanks
- John Sinclair
Related topics
Seminal works
- church1989
- kilgarriff2003
Frequently asked questions
- Was ist eine Kollokation?
- Eine Kollokation ist ein Paar oder eine Gruppe von Wörtern, die gewohnheitsmäßig häufiger zusammen auftreten, als es der Zufall vorhersagen würde, wie z. B. 'starker Tee' statt 'kraftvoller Tee'. Assoziationsmaße helfen, sie automatisch zu erkennen.