ScholarGate
Assistent

Automatische Spracherkennung

Transkription gesprochener Sprache in Text durch die Kombination akustischer Modelle des Sprachsignals mit Sprachmodellen von Wortsequenzen, von Hidden-Markov-Modell-Systemen bis hin zu End-to-End-Neuronalen Erkennungssystemen.

Thema finden mit PaperMindDemnächstFind papers & topics
Tools & resources
Folien herunterladen
Learn & explore
VideoDemnächst

Definition

Automatische Spracherkennung ist die rechnerische Aufgabe, ein akustisches Sprachsignal in eine Sequenz von Wörtern umzuwandeln.

Scope

Umfasst die Umwandlung von Audio in Text: akustische Merkmalsextraktion, akustische und Aussprachemodellierung, die Rolle des Sprachmodells, Dekodierung und den Übergang von Hidden-Markov-Modell-Systemen zur End-to-End-Neuronalen Erkennung. Es behandelt die Evaluierung mittels Wortfehlerrate und die Bedeutung geteilter Korpora. Sprachsynthese und nachgelagertes Sprachverständnis werden in verwandten Themen behandelt.

Core questions

  • Wie wird das akustische Signal auf Kandidatenwörter abgebildet?
  • Wie kombinieren sich akustische und Sprachmodelle bei der Erkennung?
  • Warum haben neuronale und End-to-End-Modelle HMM-basierte Systeme verdrängt?
  • Wie wird die Erkennungsgenauigkeit durch die Wortfehlerrate gemessen?

Key concepts

  • akustisches Modell
  • Sprachmodell
  • Merkmalsextraktion
  • Hidden-Markov-Modell
  • Dekodierung
  • End-to-End-Erkennung
  • Wortfehlerrate
  • Aussprachemodell

Key theories

Kombination von akustischem und Sprachmodell
Die Erkennung wählt die Wortsequenz, die das Produkt aus der Wahrscheinlichkeit eines akustischen Modells und dem Prior eines Sprachmodells maximiert, die Noisy-Channel-Formulierung der Spracherkennung.
Neuronale Sequenzmodellierung für Sprache
Rekurrente und auf Aufmerksamkeit basierende Netzwerke modellieren die zeitliche Struktur von Sprache direkt und ermöglichen eine End-to-End-Erkennung, die akustische und linguistische Muster gemeinsam lernt.

History

Spracherkennung war ein wichtiger Motor für statistische Methoden, wobei IBMs HMM-basierte Systeme und geteilte Korpora wie die Wall Street Journal-Sammlung (1992) stetige, messbare Fortschritte ermöglichten. Tiefe neuronale akustische Modelle um 2010 und nachfolgende End-to-End-Architekturen reduzierten die Fehlerraten drastisch und brachten die Erkennung in alltägliche Geräte.

Debates

Modulare versus End-to-End-Erkennung
Ob separate akustische, Aussprache- und Sprachmodelle beibehalten oder ein einziges End-to-End-Netzwerk trainiert werden soll; End-to-End-Systeme sind bei ausreichender Datenmenge mittlerweile führend, können aber schwieriger anzupassen sein.

Key figures

  • Frederick Jelinek
  • Janet Baker
  • Daniel Jurafsky
  • James H. Martin

Related topics

Seminal works

  • paul1992
  • jurafsky2025

Frequently asked questions

Was ist die Wortfehlerrate?
Die Wortfehlerrate misst die Erkennungsqualität als den Anteil der Wörter, die im Vergleich zu einer Referenztranskription ersetzt, gelöscht oder eingefügt wurden, wobei niedrigere Werte eine genauere Transkription anzeigen.

Methods for this concept

Related concepts