ScholarGate
Assistent

Treebanks und annotierte Korpora

Korpora, die manuell mit linguistischer Struktur – syntaktischen Bäumen, Abhängigkeiten, Sinnen und Entitäten – annotiert wurden und als Trainingsdaten und Goldstandards für die Computerlinguistik dienen.

Thema finden mit PaperMindDemnächstFind papers & topics
Tools & resources
Folien herunterladen
Learn & explore
VideoDemnächst

Definition

Eine Treebank ist ein Korpus, in dem jeder Satz mit seiner syntaktischen Struktur annotiert ist; allgemeiner ausgedrückt, ein annotiertes Korpus trägt explizite linguistische Labels, die von Menschen hinzugefügt wurden.

Scope

Umfasst das Design und die Konstruktion von annotierten Korpora, insbesondere Treebanks, die Konstituenten- oder Dependenzsyntax enthalten, sowie die Annotationspipelines, Richtlinien und Qualitätskontrolle, die dahinter stehen. Es beinhaltet die Tradition des Penn Treebank und die sprachübergreifende Universal Dependencies-Initiative sowie die Rolle der Inter-Annotator-Übereinstimmung. Allgemeine Korpusgestaltung und lexikalische Ressourcen werden in verwandten Themen behandelt.

Core questions

  • Wie werden Treebanks konzipiert und welche Annotationsschemata verwenden sie?
  • Warum sind annotierte Korpora für überwachtes Lernen unverzichtbar?
  • Wie wird die Annotationsqualität gesichert und gemessen?
  • Wie erreicht sprachübergreifende Annotation wie Universal Dependencies Konsistenz?

Key concepts

  • Treebank
  • Annotationsschema
  • Annotationsrichtlinien
  • Goldstandard
  • Inter-Annotator-Übereinstimmung
  • Penn Treebank
  • Universal Dependencies
  • Adjudikation

Key theories

Treebank-gesteuertes überwachtes Lernen
Manuell annotierte syntaktische Korpora liefern das Überwachungssignal, das statistisches Parsing, Tagging und viele NLP-Aufgaben ermöglichte.
Sprachübergreifende harmonisierte Annotation
Universal Dependencies wendet ein einziges Annotationsschema auf viele Sprachen an, was vergleichbare Treebanks und den Transfer von Modellen ermöglicht.

History

Der Penn Treebank (1993) war der erste große syntaktisch annotierte Korpus und katalysierte das statistische Parsing. Nachfolgende Treebanks fügten semantische und Diskurs-Ebenen hinzu, und das Universal Dependencies-Projekt standardisierte die Annotation über Sprachen hinweg und wurde zur De-facto-Ressource für mehrsprachige Treebanks.

Debates

Annotationstiefe versus Konsistenz
Eine reichere Annotation erfasst mehr linguistische Details, ist aber schwieriger konsistent anzuwenden; Projekte müssen ein Gleichgewicht zwischen theoretischer Raffinesse und zuverlässiger, skalierbarer Annotation finden.

Key figures

  • Mitchell Marcus
  • Beatrice Santorini
  • Marie-Catherine de Marneffe
  • Joakim Nivre

Related topics

Seminal works

  • marcus1993
  • demarneffe2021

Frequently asked questions

Warum Treebanks manuell erstellen, wenn Parser existieren?
Parser werden anhand von manuell annotierten Treebanks trainiert und evaluiert, die als Goldstandard dienen. Ohne zuverlässige manuelle Annotation gäbe es nichts, woraus gelernt oder woran die Genauigkeit gemessen werden könnte.

Methods for this concept

Related concepts