ScholarGate
Assistent

Sprachmodellierung

Die Zuweisung von Wahrscheinlichkeiten zu Wortsequenzen, die grundlegende Aufgabe, die es Systemen ermöglicht, Text vorherzusagen, zu bewerten und zu generieren – von klassischen N-Gramm-Zählern bis hin zu neuronalen Sprachmodellen.

Thema finden mit PaperMindDemnächstFind papers & topics
Tools & resources
Folien herunterladen
Learn & explore
VideoDemnächst

Definition

Ein Sprachmodell ist eine Wahrscheinlichkeitsverteilung über Sequenzen von Wörtern oder Token, typischerweise definiert durch die Vorhersage jedes Tokens aus seinem vorhergehenden Kontext.

Scope

Behandelt die Aufgabe der Sprachmodellierung selbst: die Schätzung der Wahrscheinlichkeit eines Wortes unter Berücksichtigung seines Kontextes, N-Gramm-Modelle und ihre Glättungstechniken, die Bewertung mittels Perplexität und den Übergang zu neuronalen und verteilten Repräsentationen. Es ordnet große Sprachmodelle als moderne Inkarnation derselben Aufgabe ein. Detaillierte neuronale Architekturen werden im Bereich der statistischen und neuronalen NLP behandelt.

Core questions

  • Wie kann die Wahrscheinlichkeit eines Satzes in bedingte Wortwahrscheinlichkeiten zerlegt werden?
  • Wie geht die Glättung mit Wortsequenzen um, die im Training nie gesehen wurden?
  • Wie wird Perplexität zur Bewertung und zum Vergleich von Sprachmodellen verwendet?
  • Was haben neuronale Sprachmodelle im Vergleich zu N-Gramm-Modellen verändert?

Key concepts

  • N-Gramm
  • Markov-Annahme
  • Glättung
  • Perplexität
  • Backoff und Interpolation
  • verteilte Wortrepräsentationen
  • Kreuzentropie
  • Vorhersage des nächsten Tokens

Key theories

N-Gramm-Markov-Modellierung
Annäherung der Wahrscheinlichkeit eines Wortes durch Konditionierung nur auf die vorhergehenden n−1 Wörter, wodurch die Sprachmodellierung zu einem handhabbaren Zähl- und Glättungsproblem wird.
Neuronales probabilistisches Sprachmodell
Ersetzen spärlicher N-Gramm-Zählungen durch ein neuronales Netzwerk, das verteilte Wortrepräsentationen lernt, wodurch der Fluch der Dimensionalität gemildert und die Verallgemeinerung auf ungesehene Kontexte ermöglicht wird.

History

Shannons Informationstheorie fasste Sprache als eine vorhersagbare stochastische Quelle auf, und die Spracherkennungsgemeinschaft bei IBM machte die N-Gramm-Modellierung in den 1980er Jahren zentral. Bengio und Kollegen führten 2003 neuronale probabilistische Sprachmodelle ein, die den Ansatz der verteilten Repräsentation begründeten, der, hochskaliert, die heutigen großen Sprachmodelle hervorbrachte.

Debates

Zählen versus gelernte Repräsentationen
Ob Sprache am besten durch geglättete Zählungen über diskrete Sequenzen oder durch neuronale Netze modelliert wird, die kontinuierliche Repräsentationen lernen; neuronale Methoden dominieren heute, erben aber dasselbe probabilistische Ziel.

Key figures

  • Claude Shannon
  • Frederick Jelinek
  • Yoshua Bengio
  • Daniel Jurafsky

Related topics

Seminal works

  • shannon1948
  • bengio2003
  • jurafsky2025

Frequently asked questions

Was ist Perplexität?
Perplexität misst, wie überrascht ein Sprachmodell von einem zurückgehaltenen Text ist; eine niedrigere Perplexität bedeutet, dass das Modell den beobachteten Wörtern eine höhere Wahrscheinlichkeit zuweist, was auf eine bessere Anpassung hindeutet.
Warum benötigt die Sprachmodellierung Glättung?
Jeder endliche Korpus lässt viele gültige Wortsequenzen aus, sodass ein naives Modell ihnen eine Wahrscheinlichkeit von Null zuweisen würde. Die Glättung verteilt eine kleine Wahrscheinlichkeitsmasse auf ungesehene Ereignisse um, damit das Modell neue Texte verarbeiten kann.

Methods for this concept

Related concepts