Synthèse vocale
Générer une parole au son naturel à partir de texte, en combinant l'analyse linguistique frontale — normalisation, prononciation et prosodie — avec la génération de formes d'onde, des méthodes concaténatives aux méthodes neuronales.
Definition
La synthèse vocale, ou text-to-speech, est la génération computationnelle d'un signal vocal intelligible et naturel à partir d'un texte d'entrée.
Scope
Couvre la synthèse textuelle-vocale (text-to-speech) : le frontal qui normalise le texte et prédit la prononciation et la prosodie, et le dorsal qui produit la forme d'onde, englobant les approches concaténatives, paramétriques et neuronales. Il aborde la conversion graphème-phonème et la modélisation prosodique. La reconnaissance vocale est traitée dans un sujet connexe.
Core questions
- Comment le texte écrit est-il normalisé et converti en prononciations ?
- Comment la prosodie — rythme, accentuation et intonation — est-elle prédite et rendue ?
- En quoi la synthèse concaténative, paramétrique et neuronale diffèrent-elles ?
- Comment la parole synthétisée est-elle évaluée en termes d'intelligibilité et de naturalité ?
Key concepts
- normalisation du texte
- conversion graphème-phonème
- prosodie
- synthèse concaténative
- synthèse paramétrique
- vocodeur neuronal
- intelligibilité
- naturalité
Key theories
- Traitement linguistique frontal
- Conversion du texte brut en une spécification linguistique par la normalisation, la conversion graphème-phonème et la prédiction de la prosodie avant toute génération de forme d'onde.
- Paradigmes de génération de formes d'onde
- Production audio par concaténation d'unités enregistrées, par des modèles paramétriques statistiques, ou par des réseaux neuronaux qui génèrent directement la forme d'onde pour une naturalité élevée.
History
Les premières synthèses utilisaient des méthodes à formants basées sur des règles, puis des méthodes concaténatives qui assemblaient des unités enregistrées, étudiées en détail par Taylor. La synthèse paramétrique statistique a amélioré la flexibilité dans les années 2000, et les modèles de formes d'onde neuronaux à la fin des années 2010 ont produit une parole approchant la naturalité humaine.
Debates
- Naturalité versus contrôlabilité
- La synthèse neuronale est très naturelle mais peut être plus difficile à contrôler pour une prosodie spécifique ou des traits de locuteur que les méthodes paramétriques antérieures, ce qui représente un compromis pour les applications expressives.
Key figures
- Paul Taylor
- Daniel Jurafsky
- James H. Martin
Related topics
Seminal works
- taylor2009
- jurafsky2025
Frequently asked questions
- Qu'est-ce que la conversion graphème-phonème ?
- C'est l'étape qui prédit comment les mots écrits sont prononcés, en faisant correspondre les lettres à des symboles phonétiques. Elle est essentielle car l'orthographe est un guide imparfait pour la prononciation, en particulier pour les noms propres et les mots peu familiers.