Was ist die Graphem-zu-Phonem-Konvertierung?

Es ist der Schritt, der vorhersagt, wie geschriebene Wörter ausgesprochen werden, indem Buchstaben phonetischen Symbolen zugeordnet werden. Dies ist unerlässlich, da die Schreibweise ein unvollkommener Leitfaden für die Aussprache ist, insbesondere bei Namen und unbekannten Wörtern.

Sprachsynthese

Erzeugung natürlich klingender Sprache aus Text, die linguistische Front-End-Analyse – Normalisierung, Aussprache und Prosodie – mit Wellenformerzeugung von konkatentativen bis hin zu neuronalen Methoden kombiniert.

Thema finden mit PaperMindDemnächstFind papers & topics

Tools & resources

Folien herunterladen

Learn & explore

VideoDemnächst

Definition

Sprachsynthese, oder Text-zu-Sprache, ist die computergestützte Erzeugung eines verständlichen und natürlichen Sprachsignals aus einem Eingabetext.

Scope

Umfasst die Text-zu-Sprache-Synthese: das Front-End, das Text normalisiert und Aussprache und Prosodie vorhersagt, und das Back-End, das die Wellenform erzeugt, wobei konkatentative, parametrische und neuronale Ansätze abgedeckt werden. Es behandelt die Graphem-zu-Phonem-Konvertierung und die prosodische Modellierung. Spracherkennung wird in einem verwandten Thema behandelt.

Core questions

Wie wird geschriebener Text normalisiert und in Aussprachen umgewandelt?
Wie wird Prosodie – Rhythmus, Betonung und Intonation – vorhergesagt und wiedergegeben?
Wie unterscheiden sich konkatentative, parametrische und neuronale Synthese?
Wie wird synthetisierte Sprache auf Verständlichkeit und Natürlichkeit evaluiert?

Key concepts

Textnormalisierung
Graphem-zu-Phonem-Konvertierung
Prosodie
konkatentative Synthese
parametrische Synthese
neuronaler Vocoder
Verständlichkeit
Natürlichkeit

Key theories

Linguistische Front-End-Verarbeitung: Umwandlung von Rohtext in eine linguistische Spezifikation durch Normalisierung, Graphem-zu-Phonem-Konvertierung und Prosodievorhersage, bevor eine Wellenform erzeugt wird.
Paradigmen der Wellenformerzeugung: Erzeugung von Audio durch Konkatenation aufgezeichneter Einheiten, durch statistisch-parametrische Modelle oder durch neuronale Netze, die die Wellenform direkt für hohe Natürlichkeit erzeugen.

History

Frühe Synthesen verwendeten regelbasierte Formant- und dann konkatentative Methoden, die aufgezeichnete Einheiten zusammenfügten, wie von Taylor ausführlich beschrieben. Die statistisch-parametrische Synthese verbesserte in den 2000er Jahren die Flexibilität, und neuronale Wellenformmodelle erzeugten in den späten 2010er Jahren Sprache, die der menschlichen Natürlichkeit nahekam.

Debates

Natürlichkeit versus Kontrollierbarkeit: Neuronale Synthese ist sehr natürlich, kann aber schwieriger für spezifische Prosodie- oder Sprechereigenschaften zu steuern sein als frühere parametrische Methoden, was einen Kompromiss für expressive Anwendungen darstellt.

Key figures

Paul Taylor
Daniel Jurafsky
James H. Martin

Seminal works

taylor2009
jurafsky2025

Frequently asked questions

Was ist die Graphem-zu-Phonem-Konvertierung?: Es ist der Schritt, der vorhersagt, wie geschriebene Wörter ausgesprochen werden, indem Buchstaben phonetischen Symbolen zugeordnet werden. Dies ist unerlässlich, da die Schreibweise ein unvollkommener Leitfaden für die Aussprache ist, insbesondere bei Namen und unbekannten Wörtern.