ScholarGate
Assistant

Synthèse vocale

Générer une parole au son naturel à partir de texte, en combinant l'analyse linguistique frontale — normalisation, prononciation et prosodie — avec la génération de formes d'onde, des méthodes concaténatives aux méthodes neuronales.

Trouver un sujet avec PaperMindBientôtFind papers & topics
Tools & resources
Télécharger les diapositives
Learn & explore
VidéoBientôt

Definition

La synthèse vocale, ou text-to-speech, est la génération computationnelle d'un signal vocal intelligible et naturel à partir d'un texte d'entrée.

Scope

Couvre la synthèse textuelle-vocale (text-to-speech) : le frontal qui normalise le texte et prédit la prononciation et la prosodie, et le dorsal qui produit la forme d'onde, englobant les approches concaténatives, paramétriques et neuronales. Il aborde la conversion graphème-phonème et la modélisation prosodique. La reconnaissance vocale est traitée dans un sujet connexe.

Core questions

  • Comment le texte écrit est-il normalisé et converti en prononciations ?
  • Comment la prosodie — rythme, accentuation et intonation — est-elle prédite et rendue ?
  • En quoi la synthèse concaténative, paramétrique et neuronale diffèrent-elles ?
  • Comment la parole synthétisée est-elle évaluée en termes d'intelligibilité et de naturalité ?

Key concepts

  • normalisation du texte
  • conversion graphème-phonème
  • prosodie
  • synthèse concaténative
  • synthèse paramétrique
  • vocodeur neuronal
  • intelligibilité
  • naturalité

Key theories

Traitement linguistique frontal
Conversion du texte brut en une spécification linguistique par la normalisation, la conversion graphème-phonème et la prédiction de la prosodie avant toute génération de forme d'onde.
Paradigmes de génération de formes d'onde
Production audio par concaténation d'unités enregistrées, par des modèles paramétriques statistiques, ou par des réseaux neuronaux qui génèrent directement la forme d'onde pour une naturalité élevée.

History

Les premières synthèses utilisaient des méthodes à formants basées sur des règles, puis des méthodes concaténatives qui assemblaient des unités enregistrées, étudiées en détail par Taylor. La synthèse paramétrique statistique a amélioré la flexibilité dans les années 2000, et les modèles de formes d'onde neuronaux à la fin des années 2010 ont produit une parole approchant la naturalité humaine.

Debates

Naturalité versus contrôlabilité
La synthèse neuronale est très naturelle mais peut être plus difficile à contrôler pour une prosodie spécifique ou des traits de locuteur que les méthodes paramétriques antérieures, ce qui représente un compromis pour les applications expressives.

Key figures

  • Paul Taylor
  • Daniel Jurafsky
  • James H. Martin

Related topics

Seminal works

  • taylor2009
  • jurafsky2025

Frequently asked questions

Qu'est-ce que la conversion graphème-phonème ?
C'est l'étape qui prédit comment les mots écrits sont prononcés, en faisant correspondre les lettres à des symboles phonétiques. Elle est essentielle car l'orthographe est un guide imparfait pour la prononciation, en particulier pour les noms propres et les mots peu familiers.

Methods for this concept

Related concepts