Sprachmodellierung
Die Zuweisung von Wahrscheinlichkeiten zu Wortsequenzen, die grundlegende Aufgabe, die es Systemen ermöglicht, Text vorherzusagen, zu bewerten und zu generieren – von klassischen N-Gramm-Zählern bis hin zu neuronalen Sprachmodellen.
Definition
Ein Sprachmodell ist eine Wahrscheinlichkeitsverteilung über Sequenzen von Wörtern oder Token, typischerweise definiert durch die Vorhersage jedes Tokens aus seinem vorhergehenden Kontext.
Scope
Behandelt die Aufgabe der Sprachmodellierung selbst: die Schätzung der Wahrscheinlichkeit eines Wortes unter Berücksichtigung seines Kontextes, N-Gramm-Modelle und ihre Glättungstechniken, die Bewertung mittels Perplexität und den Übergang zu neuronalen und verteilten Repräsentationen. Es ordnet große Sprachmodelle als moderne Inkarnation derselben Aufgabe ein. Detaillierte neuronale Architekturen werden im Bereich der statistischen und neuronalen NLP behandelt.
Core questions
- Wie kann die Wahrscheinlichkeit eines Satzes in bedingte Wortwahrscheinlichkeiten zerlegt werden?
- Wie geht die Glättung mit Wortsequenzen um, die im Training nie gesehen wurden?
- Wie wird Perplexität zur Bewertung und zum Vergleich von Sprachmodellen verwendet?
- Was haben neuronale Sprachmodelle im Vergleich zu N-Gramm-Modellen verändert?
Key concepts
- N-Gramm
- Markov-Annahme
- Glättung
- Perplexität
- Backoff und Interpolation
- verteilte Wortrepräsentationen
- Kreuzentropie
- Vorhersage des nächsten Tokens
Key theories
- N-Gramm-Markov-Modellierung
- Annäherung der Wahrscheinlichkeit eines Wortes durch Konditionierung nur auf die vorhergehenden n−1 Wörter, wodurch die Sprachmodellierung zu einem handhabbaren Zähl- und Glättungsproblem wird.
- Neuronales probabilistisches Sprachmodell
- Ersetzen spärlicher N-Gramm-Zählungen durch ein neuronales Netzwerk, das verteilte Wortrepräsentationen lernt, wodurch der Fluch der Dimensionalität gemildert und die Verallgemeinerung auf ungesehene Kontexte ermöglicht wird.
History
Shannons Informationstheorie fasste Sprache als eine vorhersagbare stochastische Quelle auf, und die Spracherkennungsgemeinschaft bei IBM machte die N-Gramm-Modellierung in den 1980er Jahren zentral. Bengio und Kollegen führten 2003 neuronale probabilistische Sprachmodelle ein, die den Ansatz der verteilten Repräsentation begründeten, der, hochskaliert, die heutigen großen Sprachmodelle hervorbrachte.
Debates
- Zählen versus gelernte Repräsentationen
- Ob Sprache am besten durch geglättete Zählungen über diskrete Sequenzen oder durch neuronale Netze modelliert wird, die kontinuierliche Repräsentationen lernen; neuronale Methoden dominieren heute, erben aber dasselbe probabilistische Ziel.
Key figures
- Claude Shannon
- Frederick Jelinek
- Yoshua Bengio
- Daniel Jurafsky
Related topics
Seminal works
- shannon1948
- bengio2003
- jurafsky2025
Frequently asked questions
- Was ist Perplexität?
- Perplexität misst, wie überrascht ein Sprachmodell von einem zurückgehaltenen Text ist; eine niedrigere Perplexität bedeutet, dass das Modell den beobachteten Wörtern eine höhere Wahrscheinlichkeit zuweist, was auf eine bessere Anpassung hindeutet.
- Warum benötigt die Sprachmodellierung Glättung?
- Jeder endliche Korpus lässt viele gültige Wortsequenzen aus, sodass ein naives Modell ihnen eine Wahrscheinlichkeit von Null zuweisen würde. Die Glättung verteilt eine kleine Wahrscheinlichkeitsmasse auf ungesehene Ereignisse um, damit das Modell neue Texte verarbeiten kann.