Sprachsynthese
Erzeugung natürlich klingender Sprache aus Text, die linguistische Front-End-Analyse – Normalisierung, Aussprache und Prosodie – mit Wellenformerzeugung von konkatentativen bis hin zu neuronalen Methoden kombiniert.
Definition
Sprachsynthese, oder Text-zu-Sprache, ist die computergestützte Erzeugung eines verständlichen und natürlichen Sprachsignals aus einem Eingabetext.
Scope
Umfasst die Text-zu-Sprache-Synthese: das Front-End, das Text normalisiert und Aussprache und Prosodie vorhersagt, und das Back-End, das die Wellenform erzeugt, wobei konkatentative, parametrische und neuronale Ansätze abgedeckt werden. Es behandelt die Graphem-zu-Phonem-Konvertierung und die prosodische Modellierung. Spracherkennung wird in einem verwandten Thema behandelt.
Core questions
- Wie wird geschriebener Text normalisiert und in Aussprachen umgewandelt?
- Wie wird Prosodie – Rhythmus, Betonung und Intonation – vorhergesagt und wiedergegeben?
- Wie unterscheiden sich konkatentative, parametrische und neuronale Synthese?
- Wie wird synthetisierte Sprache auf Verständlichkeit und Natürlichkeit evaluiert?
Key concepts
- Textnormalisierung
- Graphem-zu-Phonem-Konvertierung
- Prosodie
- konkatentative Synthese
- parametrische Synthese
- neuronaler Vocoder
- Verständlichkeit
- Natürlichkeit
Key theories
- Linguistische Front-End-Verarbeitung
- Umwandlung von Rohtext in eine linguistische Spezifikation durch Normalisierung, Graphem-zu-Phonem-Konvertierung und Prosodievorhersage, bevor eine Wellenform erzeugt wird.
- Paradigmen der Wellenformerzeugung
- Erzeugung von Audio durch Konkatenation aufgezeichneter Einheiten, durch statistisch-parametrische Modelle oder durch neuronale Netze, die die Wellenform direkt für hohe Natürlichkeit erzeugen.
History
Frühe Synthesen verwendeten regelbasierte Formant- und dann konkatentative Methoden, die aufgezeichnete Einheiten zusammenfügten, wie von Taylor ausführlich beschrieben. Die statistisch-parametrische Synthese verbesserte in den 2000er Jahren die Flexibilität, und neuronale Wellenformmodelle erzeugten in den späten 2010er Jahren Sprache, die der menschlichen Natürlichkeit nahekam.
Debates
- Natürlichkeit versus Kontrollierbarkeit
- Neuronale Synthese ist sehr natürlich, kann aber schwieriger für spezifische Prosodie- oder Sprechereigenschaften zu steuern sein als frühere parametrische Methoden, was einen Kompromiss für expressive Anwendungen darstellt.
Key figures
- Paul Taylor
- Daniel Jurafsky
- James H. Martin
Related topics
Seminal works
- taylor2009
- jurafsky2025
Frequently asked questions
- Was ist die Graphem-zu-Phonem-Konvertierung?
- Es ist der Schritt, der vorhersagt, wie geschriebene Wörter ausgesprochen werden, indem Buchstaben phonetischen Symbolen zugeordnet werden. Dies ist unerlässlich, da die Schreibweise ein unvollkommener Leitfaden für die Aussprache ist, insbesondere bei Namen und unbekannten Wörtern.