Was ist die Wortfehlerrate?

Die Wortfehlerrate misst die Erkennungsqualität als den Anteil der Wörter, die im Vergleich zu einer Referenztranskription ersetzt, gelöscht oder eingefügt wurden, wobei niedrigere Werte eine genauere Transkription anzeigen.

Automatische Spracherkennung

Transkription gesprochener Sprache in Text durch die Kombination akustischer Modelle des Sprachsignals mit Sprachmodellen von Wortsequenzen, von Hidden-Markov-Modell-Systemen bis hin zu End-to-End-Neuronalen Erkennungssystemen.

Thema finden mit PaperMindDemnächstFind papers & topics

Tools & resources

Folien herunterladen

Learn & explore

VideoDemnächst

Definition

Automatische Spracherkennung ist die rechnerische Aufgabe, ein akustisches Sprachsignal in eine Sequenz von Wörtern umzuwandeln.

Scope

Umfasst die Umwandlung von Audio in Text: akustische Merkmalsextraktion, akustische und Aussprachemodellierung, die Rolle des Sprachmodells, Dekodierung und den Übergang von Hidden-Markov-Modell-Systemen zur End-to-End-Neuronalen Erkennung. Es behandelt die Evaluierung mittels Wortfehlerrate und die Bedeutung geteilter Korpora. Sprachsynthese und nachgelagertes Sprachverständnis werden in verwandten Themen behandelt.

Core questions

Wie wird das akustische Signal auf Kandidatenwörter abgebildet?
Wie kombinieren sich akustische und Sprachmodelle bei der Erkennung?
Warum haben neuronale und End-to-End-Modelle HMM-basierte Systeme verdrängt?
Wie wird die Erkennungsgenauigkeit durch die Wortfehlerrate gemessen?

Key concepts

akustisches Modell
Sprachmodell
Merkmalsextraktion
Hidden-Markov-Modell
Dekodierung
End-to-End-Erkennung
Wortfehlerrate
Aussprachemodell

Key theories

Kombination von akustischem und Sprachmodell: Die Erkennung wählt die Wortsequenz, die das Produkt aus der Wahrscheinlichkeit eines akustischen Modells und dem Prior eines Sprachmodells maximiert, die Noisy-Channel-Formulierung der Spracherkennung.
Neuronale Sequenzmodellierung für Sprache: Rekurrente und auf Aufmerksamkeit basierende Netzwerke modellieren die zeitliche Struktur von Sprache direkt und ermöglichen eine End-to-End-Erkennung, die akustische und linguistische Muster gemeinsam lernt.

History

Spracherkennung war ein wichtiger Motor für statistische Methoden, wobei IBMs HMM-basierte Systeme und geteilte Korpora wie die Wall Street Journal-Sammlung (1992) stetige, messbare Fortschritte ermöglichten. Tiefe neuronale akustische Modelle um 2010 und nachfolgende End-to-End-Architekturen reduzierten die Fehlerraten drastisch und brachten die Erkennung in alltägliche Geräte.

Debates

Modulare versus End-to-End-Erkennung: Ob separate akustische, Aussprache- und Sprachmodelle beibehalten oder ein einziges End-to-End-Netzwerk trainiert werden soll; End-to-End-Systeme sind bei ausreichender Datenmenge mittlerweile führend, können aber schwieriger anzupassen sein.

Key figures

Frederick Jelinek
Janet Baker
Daniel Jurafsky
James H. Martin

Seminal works

paul1992
jurafsky2025

Frequently asked questions

Was ist die Wortfehlerrate?: Die Wortfehlerrate misst die Erkennungsqualität als den Anteil der Wörter, die im Vergleich zu einer Referenztranskription ersetzt, gelöscht oder eingefügt wurden, wobei niedrigere Werte eine genauere Transkription anzeigen.