ScholarGate
Assistent

Computerlinguistische Morphologie

Modellierung der internen Wortstruktur durch Maschinen – Analyse, Generierung, Stemming, Lemmatisierung und Subwortsegmentierung – von der Finite-State-Morphologie bis zur Byte-Pair-Kodierung, die von modernen neuronalen Systemen verwendet wird.

Thema finden mit PaperMindDemnächstFind papers & topics
Tools & resources
Folien herunterladen
Learn & explore
VideoDemnächst

Definition

Computerlinguistische Morphologie ist die algorithmische Analyse und Generierung von Wortformen hinsichtlich ihrer konstituierenden Morpheme und morphologischen Merkmale.

Scope

Umfasst die computerlinguistische Behandlung der Wortstruktur: morphologische Analyse und Generierung mit Finite-State-Transducern, Zwei-Ebenen-Morphologie, Stemming und Lemmatisierung sowie datengesteuerte Subwortsegmentierung wie die Byte-Pair-Kodierung. Es werden Flexion, Derivation und Komposition in typologisch diversen Sprachen behandelt. Die zugrunde liegende Finite-State-Maschinerie wird im Bereich Grundlagen detailliert beschrieben.

Core questions

  • Wie werden morphologische Alternationen mit Finite-State-Transducern modelliert?
  • Worin besteht der Unterschied zwischen Stemming und Lemmatisierung?
  • Wie behandelt die Subwortsegmentierung seltene und unbekannte Wörter in neuronalen Modellen?
  • Warum ist Morphologie für agglutinierende und templatisierende Sprachen schwieriger?

Key concepts

  • Morphem
  • Flexion und Derivation
  • Zwei-Ebenen-Morphologie
  • Finite-State-Transducer
  • Stemming
  • Lemmatisierung
  • Byte-Pair-Kodierung
  • Agglutination

Key theories

Zwei-Ebenen-Morphologie
Koskenniemis Modell, das Oberflächen- und lexikalische Wortformen durch parallele Finite-State-Regeln in Beziehung setzt und es einer einzigen Grammatik ermöglicht, Formen sowohl zu analysieren als auch zu generieren.
Datengesteuerte Subwortsegmentierung
Das Erlernen eines Vokabulars häufiger Zeichensequenzen, wie bei der Byte-Pair-Kodierung, damit neuronale Modelle jedes Wort als eine Sequenz von Subwort-Einheiten darstellen können.

History

Koskenniemis Zwei-Ebenen-Morphologie von 1983 etablierte Finite-State-Methoden als Standard für die morphologische Verarbeitung, konsolidiert in Beesley und Karttunens Handbuch. Mit dem Aufkommen neuronaler Modelle wurden handgefertigte morphologische Analysatoren durch gelernte Subwortsegmentierung wie die Byte-Pair-Kodierung ergänzt, die explizite Morphologie umgeht, aber seltene Wörter verarbeitet.

Debates

Explizite Morphologie versus Subwort-Einheiten
Ob neuronale Systeme linguistisch informierte morphologische Analyse benötigen oder ob statistische Subwortsegmentierung ausreicht; die Antwort scheint vom Sprachtyp und der Datengröße abzuhängen.

Key figures

  • Kimmo Koskenniemi
  • Lauri Karttunen
  • Kenneth Beesley
  • Rico Sennrich

Related topics

Seminal works

  • koskenniemi1983
  • beesley2003
  • sennrich2016

Frequently asked questions

Worin besteht der Unterschied zwischen Stemming und Lemmatisierung?
Stemming kürzt Affixe grob auf einen gemeinsamen Stamm (z.B. 'studies' zu 'studi'), während Lemmatisierung ein Wort unter Verwendung morphologischen Wissens auf seine Wörterbuchform abbildet (z.B. 'studies' zu 'study').

Methods for this concept

Related concepts