Automatische Spracherkennung
Transkription gesprochener Sprache in Text durch die Kombination akustischer Modelle des Sprachsignals mit Sprachmodellen von Wortsequenzen, von Hidden-Markov-Modell-Systemen bis hin zu End-to-End-Neuronalen Erkennungssystemen.
Definition
Automatische Spracherkennung ist die rechnerische Aufgabe, ein akustisches Sprachsignal in eine Sequenz von Wörtern umzuwandeln.
Scope
Umfasst die Umwandlung von Audio in Text: akustische Merkmalsextraktion, akustische und Aussprachemodellierung, die Rolle des Sprachmodells, Dekodierung und den Übergang von Hidden-Markov-Modell-Systemen zur End-to-End-Neuronalen Erkennung. Es behandelt die Evaluierung mittels Wortfehlerrate und die Bedeutung geteilter Korpora. Sprachsynthese und nachgelagertes Sprachverständnis werden in verwandten Themen behandelt.
Core questions
- Wie wird das akustische Signal auf Kandidatenwörter abgebildet?
- Wie kombinieren sich akustische und Sprachmodelle bei der Erkennung?
- Warum haben neuronale und End-to-End-Modelle HMM-basierte Systeme verdrängt?
- Wie wird die Erkennungsgenauigkeit durch die Wortfehlerrate gemessen?
Key concepts
- akustisches Modell
- Sprachmodell
- Merkmalsextraktion
- Hidden-Markov-Modell
- Dekodierung
- End-to-End-Erkennung
- Wortfehlerrate
- Aussprachemodell
Key theories
- Kombination von akustischem und Sprachmodell
- Die Erkennung wählt die Wortsequenz, die das Produkt aus der Wahrscheinlichkeit eines akustischen Modells und dem Prior eines Sprachmodells maximiert, die Noisy-Channel-Formulierung der Spracherkennung.
- Neuronale Sequenzmodellierung für Sprache
- Rekurrente und auf Aufmerksamkeit basierende Netzwerke modellieren die zeitliche Struktur von Sprache direkt und ermöglichen eine End-to-End-Erkennung, die akustische und linguistische Muster gemeinsam lernt.
History
Spracherkennung war ein wichtiger Motor für statistische Methoden, wobei IBMs HMM-basierte Systeme und geteilte Korpora wie die Wall Street Journal-Sammlung (1992) stetige, messbare Fortschritte ermöglichten. Tiefe neuronale akustische Modelle um 2010 und nachfolgende End-to-End-Architekturen reduzierten die Fehlerraten drastisch und brachten die Erkennung in alltägliche Geräte.
Debates
- Modulare versus End-to-End-Erkennung
- Ob separate akustische, Aussprache- und Sprachmodelle beibehalten oder ein einziges End-to-End-Netzwerk trainiert werden soll; End-to-End-Systeme sind bei ausreichender Datenmenge mittlerweile führend, können aber schwieriger anzupassen sein.
Key figures
- Frederick Jelinek
- Janet Baker
- Daniel Jurafsky
- James H. Martin
Related topics
Seminal works
- paul1992
- jurafsky2025
Frequently asked questions
- Was ist die Wortfehlerrate?
- Die Wortfehlerrate misst die Erkennungsqualität als den Anteil der Wörter, die im Vergleich zu einer Referenztranskription ersetzt, gelöscht oder eingefügt wurden, wobei niedrigere Werte eine genauere Transkription anzeigen.