Treebanks und annotierte Korpora
Korpora, die manuell mit linguistischer Struktur – syntaktischen Bäumen, Abhängigkeiten, Sinnen und Entitäten – annotiert wurden und als Trainingsdaten und Goldstandards für die Computerlinguistik dienen.
Definition
Eine Treebank ist ein Korpus, in dem jeder Satz mit seiner syntaktischen Struktur annotiert ist; allgemeiner ausgedrückt, ein annotiertes Korpus trägt explizite linguistische Labels, die von Menschen hinzugefügt wurden.
Scope
Umfasst das Design und die Konstruktion von annotierten Korpora, insbesondere Treebanks, die Konstituenten- oder Dependenzsyntax enthalten, sowie die Annotationspipelines, Richtlinien und Qualitätskontrolle, die dahinter stehen. Es beinhaltet die Tradition des Penn Treebank und die sprachübergreifende Universal Dependencies-Initiative sowie die Rolle der Inter-Annotator-Übereinstimmung. Allgemeine Korpusgestaltung und lexikalische Ressourcen werden in verwandten Themen behandelt.
Core questions
- Wie werden Treebanks konzipiert und welche Annotationsschemata verwenden sie?
- Warum sind annotierte Korpora für überwachtes Lernen unverzichtbar?
- Wie wird die Annotationsqualität gesichert und gemessen?
- Wie erreicht sprachübergreifende Annotation wie Universal Dependencies Konsistenz?
Key concepts
- Treebank
- Annotationsschema
- Annotationsrichtlinien
- Goldstandard
- Inter-Annotator-Übereinstimmung
- Penn Treebank
- Universal Dependencies
- Adjudikation
Key theories
- Treebank-gesteuertes überwachtes Lernen
- Manuell annotierte syntaktische Korpora liefern das Überwachungssignal, das statistisches Parsing, Tagging und viele NLP-Aufgaben ermöglichte.
- Sprachübergreifende harmonisierte Annotation
- Universal Dependencies wendet ein einziges Annotationsschema auf viele Sprachen an, was vergleichbare Treebanks und den Transfer von Modellen ermöglicht.
History
Der Penn Treebank (1993) war der erste große syntaktisch annotierte Korpus und katalysierte das statistische Parsing. Nachfolgende Treebanks fügten semantische und Diskurs-Ebenen hinzu, und das Universal Dependencies-Projekt standardisierte die Annotation über Sprachen hinweg und wurde zur De-facto-Ressource für mehrsprachige Treebanks.
Debates
- Annotationstiefe versus Konsistenz
- Eine reichere Annotation erfasst mehr linguistische Details, ist aber schwieriger konsistent anzuwenden; Projekte müssen ein Gleichgewicht zwischen theoretischer Raffinesse und zuverlässiger, skalierbarer Annotation finden.
Key figures
- Mitchell Marcus
- Beatrice Santorini
- Marie-Catherine de Marneffe
- Joakim Nivre
Related topics
Seminal works
- marcus1993
- demarneffe2021
Frequently asked questions
- Warum Treebanks manuell erstellen, wenn Parser existieren?
- Parser werden anhand von manuell annotierten Treebanks trainiert und evaluiert, die als Goldstandard dienen. Ohne zuverlässige manuelle Annotation gäbe es nichts, woraus gelernt oder woran die Genauigkeit gemessen werden könnte.