ScholarGate
Assistent

Sprachsynthese

Erzeugung natürlich klingender Sprache aus Text, die linguistische Front-End-Analyse – Normalisierung, Aussprache und Prosodie – mit Wellenformerzeugung von konkatentativen bis hin zu neuronalen Methoden kombiniert.

Thema finden mit PaperMindDemnächstFind papers & topics
Tools & resources
Folien herunterladen
Learn & explore
VideoDemnächst

Definition

Sprachsynthese, oder Text-zu-Sprache, ist die computergestützte Erzeugung eines verständlichen und natürlichen Sprachsignals aus einem Eingabetext.

Scope

Umfasst die Text-zu-Sprache-Synthese: das Front-End, das Text normalisiert und Aussprache und Prosodie vorhersagt, und das Back-End, das die Wellenform erzeugt, wobei konkatentative, parametrische und neuronale Ansätze abgedeckt werden. Es behandelt die Graphem-zu-Phonem-Konvertierung und die prosodische Modellierung. Spracherkennung wird in einem verwandten Thema behandelt.

Core questions

  • Wie wird geschriebener Text normalisiert und in Aussprachen umgewandelt?
  • Wie wird Prosodie – Rhythmus, Betonung und Intonation – vorhergesagt und wiedergegeben?
  • Wie unterscheiden sich konkatentative, parametrische und neuronale Synthese?
  • Wie wird synthetisierte Sprache auf Verständlichkeit und Natürlichkeit evaluiert?

Key concepts

  • Textnormalisierung
  • Graphem-zu-Phonem-Konvertierung
  • Prosodie
  • konkatentative Synthese
  • parametrische Synthese
  • neuronaler Vocoder
  • Verständlichkeit
  • Natürlichkeit

Key theories

Linguistische Front-End-Verarbeitung
Umwandlung von Rohtext in eine linguistische Spezifikation durch Normalisierung, Graphem-zu-Phonem-Konvertierung und Prosodievorhersage, bevor eine Wellenform erzeugt wird.
Paradigmen der Wellenformerzeugung
Erzeugung von Audio durch Konkatenation aufgezeichneter Einheiten, durch statistisch-parametrische Modelle oder durch neuronale Netze, die die Wellenform direkt für hohe Natürlichkeit erzeugen.

History

Frühe Synthesen verwendeten regelbasierte Formant- und dann konkatentative Methoden, die aufgezeichnete Einheiten zusammenfügten, wie von Taylor ausführlich beschrieben. Die statistisch-parametrische Synthese verbesserte in den 2000er Jahren die Flexibilität, und neuronale Wellenformmodelle erzeugten in den späten 2010er Jahren Sprache, die der menschlichen Natürlichkeit nahekam.

Debates

Natürlichkeit versus Kontrollierbarkeit
Neuronale Synthese ist sehr natürlich, kann aber schwieriger für spezifische Prosodie- oder Sprechereigenschaften zu steuern sein als frühere parametrische Methoden, was einen Kompromiss für expressive Anwendungen darstellt.

Key figures

  • Paul Taylor
  • Daniel Jurafsky
  • James H. Martin

Related topics

Seminal works

  • taylor2009
  • jurafsky2025

Frequently asked questions

Was ist die Graphem-zu-Phonem-Konvertierung?
Es ist der Schritt, der vorhersagt, wie geschriebene Wörter ausgesprochen werden, indem Buchstaben phonetischen Symbolen zugeordnet werden. Dies ist unerlässlich, da die Schreibweise ein unvollkommener Leitfaden für die Aussprache ist, insbesondere bei Namen und unbekannten Wörtern.

Methods for this concept

Related concepts