Computerlinguistische Morphologie
Modellierung der internen Wortstruktur durch Maschinen – Analyse, Generierung, Stemming, Lemmatisierung und Subwortsegmentierung – von der Finite-State-Morphologie bis zur Byte-Pair-Kodierung, die von modernen neuronalen Systemen verwendet wird.
Definition
Computerlinguistische Morphologie ist die algorithmische Analyse und Generierung von Wortformen hinsichtlich ihrer konstituierenden Morpheme und morphologischen Merkmale.
Scope
Umfasst die computerlinguistische Behandlung der Wortstruktur: morphologische Analyse und Generierung mit Finite-State-Transducern, Zwei-Ebenen-Morphologie, Stemming und Lemmatisierung sowie datengesteuerte Subwortsegmentierung wie die Byte-Pair-Kodierung. Es werden Flexion, Derivation und Komposition in typologisch diversen Sprachen behandelt. Die zugrunde liegende Finite-State-Maschinerie wird im Bereich Grundlagen detailliert beschrieben.
Core questions
- Wie werden morphologische Alternationen mit Finite-State-Transducern modelliert?
- Worin besteht der Unterschied zwischen Stemming und Lemmatisierung?
- Wie behandelt die Subwortsegmentierung seltene und unbekannte Wörter in neuronalen Modellen?
- Warum ist Morphologie für agglutinierende und templatisierende Sprachen schwieriger?
Key concepts
- Morphem
- Flexion und Derivation
- Zwei-Ebenen-Morphologie
- Finite-State-Transducer
- Stemming
- Lemmatisierung
- Byte-Pair-Kodierung
- Agglutination
Key theories
- Zwei-Ebenen-Morphologie
- Koskenniemis Modell, das Oberflächen- und lexikalische Wortformen durch parallele Finite-State-Regeln in Beziehung setzt und es einer einzigen Grammatik ermöglicht, Formen sowohl zu analysieren als auch zu generieren.
- Datengesteuerte Subwortsegmentierung
- Das Erlernen eines Vokabulars häufiger Zeichensequenzen, wie bei der Byte-Pair-Kodierung, damit neuronale Modelle jedes Wort als eine Sequenz von Subwort-Einheiten darstellen können.
History
Koskenniemis Zwei-Ebenen-Morphologie von 1983 etablierte Finite-State-Methoden als Standard für die morphologische Verarbeitung, konsolidiert in Beesley und Karttunens Handbuch. Mit dem Aufkommen neuronaler Modelle wurden handgefertigte morphologische Analysatoren durch gelernte Subwortsegmentierung wie die Byte-Pair-Kodierung ergänzt, die explizite Morphologie umgeht, aber seltene Wörter verarbeitet.
Debates
- Explizite Morphologie versus Subwort-Einheiten
- Ob neuronale Systeme linguistisch informierte morphologische Analyse benötigen oder ob statistische Subwortsegmentierung ausreicht; die Antwort scheint vom Sprachtyp und der Datengröße abzuhängen.
Key figures
- Kimmo Koskenniemi
- Lauri Karttunen
- Kenneth Beesley
- Rico Sennrich
Related topics
Seminal works
- koskenniemi1983
- beesley2003
- sennrich2016
Frequently asked questions
- Worin besteht der Unterschied zwischen Stemming und Lemmatisierung?
- Stemming kürzt Affixe grob auf einen gemeinsamen Stamm (z.B. 'studies' zu 'studi'), während Lemmatisierung ein Wort unter Verwendung morphologischen Wissens auf seine Wörterbuchform abbildet (z.B. 'studies' zu 'study').