Lexikalische und Korpusressourcen
Die Daten- und Wissensbasen, auf denen die empirische Computerlinguistik basiert: Textkorpora, lexikalische Datenbanken und Ontologien, computergestützte Analysen der Wortstruktur und reich annotierte Treebanks.
Definition
Lexikalische und Korpusressourcen sind strukturierte Sammlungen von Sprachdaten – Texte, Lexika und Annotationen –, die zur Unterstützung empirischer Analysen und des Trainings von Sprachverarbeitungssystemen erstellt wurden.
Scope
Umfasst die Erstellung, Pflege und Nutzung von Sprachressourcen – ausgewogene und Web-Korpora, lexikalisch-semantische Datenbanken wie WordNet, computergestützte Morphologie und Lexika sowie annotierte Treebanks. Es behandelt Korpusdesign, Repräsentativität, Annotationsstandards und die Rolle von Ressourcen beim Training und der Evaluierung von Systemen. Algorithmische Modellierungen, die diese Ressourcen nutzen, werden in anderen Bereichen behandelt.
Sub-topics
Core questions
- Wie werden Korpora so konzipiert, dass sie repräsentativ und ausgewogen sind?
- Wie können Wortbedeutungen in maschinenlesbaren lexikalischen Datenbanken organisiert werden?
- Wie wird die Wortstruktur in morphologisch reichen Sprachen computergestützt dargestellt?
- Warum sind annotierte Treebanks für die datengesteuerte Linguistik von zentraler Bedeutung?
Key concepts
- Korpus
- Repräsentativität
- lexikalische Datenbank
- WordNet
- Synset
- morphologisches Lexikon
- Treebank
- Annotationsstandard
Key theories
- Korpusbasierter Empirismus
- Die methodologische Haltung, dass linguistische Verallgemeinerungen und Systemparameter auf großen Stichproben belegter Sprachverwendung und nicht allein auf Introspektion basieren sollten.
- Lexikalisch-semantische Netzwerke
- Die Organisation des Lexikons als Graph von Sinnen, die durch Relationen wie Synonymie und Hyperonymie verbunden sind, wie in WordNet, zur Unterstützung von Aufgaben von der Disambiguierung bis zur semantischen Ähnlichkeit.
History
Die Umstellung auf empirische Methoden in den 1990er Jahren machte Korpora und lexikalische Ressourcen zu grundlegenden Elementen. WordNet stellte eine wiederverwendbare lexikalisch-semantische Datenbank bereit, ausgewogene Korpora wie das British National Corpus setzten Designstandards, und die Arbeiten von Kilgarriff und Grefenstette legitimierten das Web selbst als umfangreiches Korpus für die linguistische Forschung.
Debates
- Ausgewogene Korpora versus das Web als Korpus
- Ob sorgfältig ausgewogene Korpora oder das unübersichtliche, aber enorme Web der linguistischen Forschung besser dienen; das Feld verwendet zunehmend beides und wägt Repräsentativität gegen Umfang ab.
Key figures
- Christiane Fellbaum
- Adam Kilgarriff
- Christopher Manning
- George Miller
Related topics
Seminal works
- fellbaum1998
- kilgarriff2003
- manning1999
Frequently asked questions
- Was macht ein gutes Korpus aus?
- Ein gutes Korpus ist groß genug für zuverlässige Statistiken und repräsentativ für die untersuchte Sprachvarietät, mit klarer Dokumentation seiner Quellen, Stichprobenziehung und etwaiger Annotationen, damit Ergebnisse interpretiert und reproduziert werden können.