Was ist Perplexität?

Perplexität misst, wie überrascht ein Sprachmodell von einem zurückgehaltenen Text ist; eine niedrigere Perplexität bedeutet, dass das Modell den beobachteten Wörtern eine höhere Wahrscheinlichkeit zuweist, was auf eine bessere Anpassung hindeutet.

Warum benötigt die Sprachmodellierung Glättung?

Jeder endliche Korpus lässt viele gültige Wortsequenzen aus, sodass ein naives Modell ihnen eine Wahrscheinlichkeit von Null zuweisen würde. Die Glättung verteilt eine kleine Wahrscheinlichkeitsmasse auf ungesehene Ereignisse um, damit das Modell neue Texte verarbeiten kann.

Sprachmodellierung

Die Zuweisung von Wahrscheinlichkeiten zu Wortsequenzen, die grundlegende Aufgabe, die es Systemen ermöglicht, Text vorherzusagen, zu bewerten und zu generieren – von klassischen N-Gramm-Zählern bis hin zu neuronalen Sprachmodellen.

Thema finden mit PaperMindDemnächstFind papers & topics

Tools & resources

Folien herunterladen

Learn & explore

VideoDemnächst

Definition

Ein Sprachmodell ist eine Wahrscheinlichkeitsverteilung über Sequenzen von Wörtern oder Token, typischerweise definiert durch die Vorhersage jedes Tokens aus seinem vorhergehenden Kontext.

Scope

Behandelt die Aufgabe der Sprachmodellierung selbst: die Schätzung der Wahrscheinlichkeit eines Wortes unter Berücksichtigung seines Kontextes, N-Gramm-Modelle und ihre Glättungstechniken, die Bewertung mittels Perplexität und den Übergang zu neuronalen und verteilten Repräsentationen. Es ordnet große Sprachmodelle als moderne Inkarnation derselben Aufgabe ein. Detaillierte neuronale Architekturen werden im Bereich der statistischen und neuronalen NLP behandelt.

Core questions

Wie kann die Wahrscheinlichkeit eines Satzes in bedingte Wortwahrscheinlichkeiten zerlegt werden?
Wie geht die Glättung mit Wortsequenzen um, die im Training nie gesehen wurden?
Wie wird Perplexität zur Bewertung und zum Vergleich von Sprachmodellen verwendet?
Was haben neuronale Sprachmodelle im Vergleich zu N-Gramm-Modellen verändert?

Key concepts

N-Gramm
Markov-Annahme
Glättung
Perplexität
Backoff und Interpolation
verteilte Wortrepräsentationen
Kreuzentropie
Vorhersage des nächsten Tokens

Key theories

N-Gramm-Markov-Modellierung: Annäherung der Wahrscheinlichkeit eines Wortes durch Konditionierung nur auf die vorhergehenden n−1 Wörter, wodurch die Sprachmodellierung zu einem handhabbaren Zähl- und Glättungsproblem wird.
Neuronales probabilistisches Sprachmodell: Ersetzen spärlicher N-Gramm-Zählungen durch ein neuronales Netzwerk, das verteilte Wortrepräsentationen lernt, wodurch der Fluch der Dimensionalität gemildert und die Verallgemeinerung auf ungesehene Kontexte ermöglicht wird.

History

Shannons Informationstheorie fasste Sprache als eine vorhersagbare stochastische Quelle auf, und die Spracherkennungsgemeinschaft bei IBM machte die N-Gramm-Modellierung in den 1980er Jahren zentral. Bengio und Kollegen führten 2003 neuronale probabilistische Sprachmodelle ein, die den Ansatz der verteilten Repräsentation begründeten, der, hochskaliert, die heutigen großen Sprachmodelle hervorbrachte.

Debates

Zählen versus gelernte Repräsentationen: Ob Sprache am besten durch geglättete Zählungen über diskrete Sequenzen oder durch neuronale Netze modelliert wird, die kontinuierliche Repräsentationen lernen; neuronale Methoden dominieren heute, erben aber dasselbe probabilistische Ziel.

Key figures

Claude Shannon
Frederick Jelinek
Yoshua Bengio
Daniel Jurafsky

Seminal works

shannon1948
bengio2003
jurafsky2025

Frequently asked questions

Was ist Perplexität?: Perplexität misst, wie überrascht ein Sprachmodell von einem zurückgehaltenen Text ist; eine niedrigere Perplexität bedeutet, dass das Modell den beobachteten Wörtern eine höhere Wahrscheinlichkeit zuweist, was auf eine bessere Anpassung hindeutet.
Warum benötigt die Sprachmodellierung Glättung?: Jeder endliche Korpus lässt viele gültige Wortsequenzen aus, sodass ein naives Modell ihnen eine Wahrscheinlichkeit von Null zuweisen würde. Die Glättung verteilt eine kleine Wahrscheinlichkeitsmasse auf ungesehene Ereignisse um, damit das Modell neue Texte verarbeiten kann.