Worin besteht der Unterschied zwischen Stemming und Lemmatisierung?

Stemming kürzt Affixe grob auf einen gemeinsamen Stamm (z.B. 'studies' zu 'studi'), während Lemmatisierung ein Wort unter Verwendung morphologischen Wissens auf seine Wörterbuchform abbildet (z.B. 'studies' zu 'study').

Computerlinguistische Morphologie

Modellierung der internen Wortstruktur durch Maschinen – Analyse, Generierung, Stemming, Lemmatisierung und Subwortsegmentierung – von der Finite-State-Morphologie bis zur Byte-Pair-Kodierung, die von modernen neuronalen Systemen verwendet wird.

Thema finden mit PaperMindDemnächstFind papers & topics

Tools & resources

Folien herunterladen

Learn & explore

VideoDemnächst

Definition

Computerlinguistische Morphologie ist die algorithmische Analyse und Generierung von Wortformen hinsichtlich ihrer konstituierenden Morpheme und morphologischen Merkmale.

Scope

Umfasst die computerlinguistische Behandlung der Wortstruktur: morphologische Analyse und Generierung mit Finite-State-Transducern, Zwei-Ebenen-Morphologie, Stemming und Lemmatisierung sowie datengesteuerte Subwortsegmentierung wie die Byte-Pair-Kodierung. Es werden Flexion, Derivation und Komposition in typologisch diversen Sprachen behandelt. Die zugrunde liegende Finite-State-Maschinerie wird im Bereich Grundlagen detailliert beschrieben.

Core questions

Wie werden morphologische Alternationen mit Finite-State-Transducern modelliert?
Worin besteht der Unterschied zwischen Stemming und Lemmatisierung?
Wie behandelt die Subwortsegmentierung seltene und unbekannte Wörter in neuronalen Modellen?
Warum ist Morphologie für agglutinierende und templatisierende Sprachen schwieriger?

Key concepts

Morphem
Flexion und Derivation
Zwei-Ebenen-Morphologie
Finite-State-Transducer
Stemming
Lemmatisierung
Byte-Pair-Kodierung
Agglutination

Key theories

Zwei-Ebenen-Morphologie: Koskenniemis Modell, das Oberflächen- und lexikalische Wortformen durch parallele Finite-State-Regeln in Beziehung setzt und es einer einzigen Grammatik ermöglicht, Formen sowohl zu analysieren als auch zu generieren.
Datengesteuerte Subwortsegmentierung: Das Erlernen eines Vokabulars häufiger Zeichensequenzen, wie bei der Byte-Pair-Kodierung, damit neuronale Modelle jedes Wort als eine Sequenz von Subwort-Einheiten darstellen können.

History

Koskenniemis Zwei-Ebenen-Morphologie von 1983 etablierte Finite-State-Methoden als Standard für die morphologische Verarbeitung, konsolidiert in Beesley und Karttunens Handbuch. Mit dem Aufkommen neuronaler Modelle wurden handgefertigte morphologische Analysatoren durch gelernte Subwortsegmentierung wie die Byte-Pair-Kodierung ergänzt, die explizite Morphologie umgeht, aber seltene Wörter verarbeitet.

Debates

Explizite Morphologie versus Subwort-Einheiten: Ob neuronale Systeme linguistisch informierte morphologische Analyse benötigen oder ob statistische Subwortsegmentierung ausreicht; die Antwort scheint vom Sprachtyp und der Datengröße abzuhängen.

Key figures

Kimmo Koskenniemi
Lauri Karttunen
Kenneth Beesley
Rico Sennrich

Seminal works

koskenniemi1983
beesley2003
sennrich2016

Frequently asked questions

Worin besteht der Unterschied zwischen Stemming und Lemmatisierung?: Stemming kürzt Affixe grob auf einen gemeinsamen Stamm (z.B. 'studies' zu 'studi'), während Lemmatisierung ein Wort unter Verwendung morphologischen Wissens auf seine Wörterbuchform abbildet (z.B. 'studies' zu 'study').