Was macht ein gutes Korpus aus?

Ein gutes Korpus ist groß genug für zuverlässige Statistiken und repräsentativ für die untersuchte Sprachvarietät, mit klarer Dokumentation seiner Quellen, Stichprobenziehung und etwaiger Annotationen, damit Ergebnisse interpretiert und reproduziert werden können.

Lexikalische und Korpusressourcen

Die Daten- und Wissensbasen, auf denen die empirische Computerlinguistik basiert: Textkorpora, lexikalische Datenbanken und Ontologien, computergestützte Analysen der Wortstruktur und reich annotierte Treebanks.

Thema finden mit PaperMindDemnächstFind papers & topics

Tools & resources

Folien herunterladen

Learn & explore

VideoDemnächst

Definition

Lexikalische und Korpusressourcen sind strukturierte Sammlungen von Sprachdaten – Texte, Lexika und Annotationen –, die zur Unterstützung empirischer Analysen und des Trainings von Sprachverarbeitungssystemen erstellt wurden.

Scope

Umfasst die Erstellung, Pflege und Nutzung von Sprachressourcen – ausgewogene und Web-Korpora, lexikalisch-semantische Datenbanken wie WordNet, computergestützte Morphologie und Lexika sowie annotierte Treebanks. Es behandelt Korpusdesign, Repräsentativität, Annotationsstandards und die Rolle von Ressourcen beim Training und der Evaluierung von Systemen. Algorithmische Modellierungen, die diese Ressourcen nutzen, werden in anderen Bereichen behandelt.

Sub-topics

Core questions

Wie werden Korpora so konzipiert, dass sie repräsentativ und ausgewogen sind?
Wie können Wortbedeutungen in maschinenlesbaren lexikalischen Datenbanken organisiert werden?
Wie wird die Wortstruktur in morphologisch reichen Sprachen computergestützt dargestellt?
Warum sind annotierte Treebanks für die datengesteuerte Linguistik von zentraler Bedeutung?

Key concepts

Korpus
Repräsentativität
lexikalische Datenbank
WordNet
Synset
morphologisches Lexikon
Treebank
Annotationsstandard

Key theories

Korpusbasierter Empirismus: Die methodologische Haltung, dass linguistische Verallgemeinerungen und Systemparameter auf großen Stichproben belegter Sprachverwendung und nicht allein auf Introspektion basieren sollten.
Lexikalisch-semantische Netzwerke: Die Organisation des Lexikons als Graph von Sinnen, die durch Relationen wie Synonymie und Hyperonymie verbunden sind, wie in WordNet, zur Unterstützung von Aufgaben von der Disambiguierung bis zur semantischen Ähnlichkeit.

History

Die Umstellung auf empirische Methoden in den 1990er Jahren machte Korpora und lexikalische Ressourcen zu grundlegenden Elementen. WordNet stellte eine wiederverwendbare lexikalisch-semantische Datenbank bereit, ausgewogene Korpora wie das British National Corpus setzten Designstandards, und die Arbeiten von Kilgarriff und Grefenstette legitimierten das Web selbst als umfangreiches Korpus für die linguistische Forschung.

Debates

Ausgewogene Korpora versus das Web als Korpus: Ob sorgfältig ausgewogene Korpora oder das unübersichtliche, aber enorme Web der linguistischen Forschung besser dienen; das Feld verwendet zunehmend beides und wägt Repräsentativität gegen Umfang ab.

Key figures

Christiane Fellbaum
Adam Kilgarriff
Christopher Manning
George Miller

Seminal works

fellbaum1998
kilgarriff2003
manning1999

Frequently asked questions

Was macht ein gutes Korpus aus?: Ein gutes Korpus ist groß genug für zuverlässige Statistiken und repräsentativ für die untersuchte Sprachvarietät, mit klarer Dokumentation seiner Quellen, Stichprobenziehung und etwaiger Annotationen, damit Ergebnisse interpretiert und reproduziert werden können.