ScholarGate
Assistent

Lexikalische und Korpusressourcen

Die Daten- und Wissensbasen, auf denen die empirische Computerlinguistik basiert: Textkorpora, lexikalische Datenbanken und Ontologien, computergestützte Analysen der Wortstruktur und reich annotierte Treebanks.

Thema finden mit PaperMindDemnächstFind papers & topics
Tools & resources
Folien herunterladen
Learn & explore
VideoDemnächst

Definition

Lexikalische und Korpusressourcen sind strukturierte Sammlungen von Sprachdaten – Texte, Lexika und Annotationen –, die zur Unterstützung empirischer Analysen und des Trainings von Sprachverarbeitungssystemen erstellt wurden.

Scope

Umfasst die Erstellung, Pflege und Nutzung von Sprachressourcen – ausgewogene und Web-Korpora, lexikalisch-semantische Datenbanken wie WordNet, computergestützte Morphologie und Lexika sowie annotierte Treebanks. Es behandelt Korpusdesign, Repräsentativität, Annotationsstandards und die Rolle von Ressourcen beim Training und der Evaluierung von Systemen. Algorithmische Modellierungen, die diese Ressourcen nutzen, werden in anderen Bereichen behandelt.

Sub-topics

Core questions

  • Wie werden Korpora so konzipiert, dass sie repräsentativ und ausgewogen sind?
  • Wie können Wortbedeutungen in maschinenlesbaren lexikalischen Datenbanken organisiert werden?
  • Wie wird die Wortstruktur in morphologisch reichen Sprachen computergestützt dargestellt?
  • Warum sind annotierte Treebanks für die datengesteuerte Linguistik von zentraler Bedeutung?

Key concepts

  • Korpus
  • Repräsentativität
  • lexikalische Datenbank
  • WordNet
  • Synset
  • morphologisches Lexikon
  • Treebank
  • Annotationsstandard

Key theories

Korpusbasierter Empirismus
Die methodologische Haltung, dass linguistische Verallgemeinerungen und Systemparameter auf großen Stichproben belegter Sprachverwendung und nicht allein auf Introspektion basieren sollten.
Lexikalisch-semantische Netzwerke
Die Organisation des Lexikons als Graph von Sinnen, die durch Relationen wie Synonymie und Hyperonymie verbunden sind, wie in WordNet, zur Unterstützung von Aufgaben von der Disambiguierung bis zur semantischen Ähnlichkeit.

History

Die Umstellung auf empirische Methoden in den 1990er Jahren machte Korpora und lexikalische Ressourcen zu grundlegenden Elementen. WordNet stellte eine wiederverwendbare lexikalisch-semantische Datenbank bereit, ausgewogene Korpora wie das British National Corpus setzten Designstandards, und die Arbeiten von Kilgarriff und Grefenstette legitimierten das Web selbst als umfangreiches Korpus für die linguistische Forschung.

Debates

Ausgewogene Korpora versus das Web als Korpus
Ob sorgfältig ausgewogene Korpora oder das unübersichtliche, aber enorme Web der linguistischen Forschung besser dienen; das Feld verwendet zunehmend beides und wägt Repräsentativität gegen Umfang ab.

Key figures

  • Christiane Fellbaum
  • Adam Kilgarriff
  • Christopher Manning
  • George Miller

Related topics

Seminal works

  • fellbaum1998
  • kilgarriff2003
  • manning1999

Frequently asked questions

Was macht ein gutes Korpus aus?
Ein gutes Korpus ist groß genug für zuverlässige Statistiken und repräsentativ für die untersuchte Sprachvarietät, mit klarer Dokumentation seiner Quellen, Stichprobenziehung und etwaiger Annotationen, damit Ergebnisse interpretiert und reproduziert werden können.

Methods for this concept

Related concepts