Qu'est-ce que la conversion graphème-phonème ?

C'est l'étape qui prédit comment les mots écrits sont prononcés, en faisant correspondre les lettres à des symboles phonétiques. Elle est essentielle car l'orthographe est un guide imparfait pour la prononciation, en particulier pour les noms propres et les mots peu familiers.

Synthèse vocale

Générer une parole au son naturel à partir de texte, en combinant l'analyse linguistique frontale — normalisation, prononciation et prosodie — avec la génération de formes d'onde, des méthodes concaténatives aux méthodes neuronales.

Trouver un sujet avec PaperMindBientôtFind papers & topics

Tools & resources

Télécharger les diapositives

Learn & explore

VidéoBientôt

Definition

La synthèse vocale, ou text-to-speech, est la génération computationnelle d'un signal vocal intelligible et naturel à partir d'un texte d'entrée.

Scope

Couvre la synthèse textuelle-vocale (text-to-speech) : le frontal qui normalise le texte et prédit la prononciation et la prosodie, et le dorsal qui produit la forme d'onde, englobant les approches concaténatives, paramétriques et neuronales. Il aborde la conversion graphème-phonème et la modélisation prosodique. La reconnaissance vocale est traitée dans un sujet connexe.

Core questions

Comment le texte écrit est-il normalisé et converti en prononciations ?
Comment la prosodie — rythme, accentuation et intonation — est-elle prédite et rendue ?
En quoi la synthèse concaténative, paramétrique et neuronale diffèrent-elles ?
Comment la parole synthétisée est-elle évaluée en termes d'intelligibilité et de naturalité ?

Key concepts

normalisation du texte
conversion graphème-phonème
prosodie
synthèse concaténative
synthèse paramétrique
vocodeur neuronal
intelligibilité
naturalité

Key theories

Traitement linguistique frontal: Conversion du texte brut en une spécification linguistique par la normalisation, la conversion graphème-phonème et la prédiction de la prosodie avant toute génération de forme d'onde.
Paradigmes de génération de formes d'onde: Production audio par concaténation d'unités enregistrées, par des modèles paramétriques statistiques, ou par des réseaux neuronaux qui génèrent directement la forme d'onde pour une naturalité élevée.

History

Les premières synthèses utilisaient des méthodes à formants basées sur des règles, puis des méthodes concaténatives qui assemblaient des unités enregistrées, étudiées en détail par Taylor. La synthèse paramétrique statistique a amélioré la flexibilité dans les années 2000, et les modèles de formes d'onde neuronaux à la fin des années 2010 ont produit une parole approchant la naturalité humaine.

Debates

Naturalité versus contrôlabilité: La synthèse neuronale est très naturelle mais peut être plus difficile à contrôler pour une prosodie spécifique ou des traits de locuteur que les méthodes paramétriques antérieures, ce qui représente un compromis pour les applications expressives.

Key figures

Paul Taylor
Daniel Jurafsky
James H. Martin

Seminal works

taylor2009
jurafsky2025

Frequently asked questions

Qu'est-ce que la conversion graphème-phonème ?: C'est l'étape qui prédit comment les mots écrits sont prononcés, en faisant correspondre les lettres à des symboles phonétiques. Elle est essentielle car l'orthographe est un guide imparfait pour la prononciation, en particulier pour les noms propres et les mots peu familiers.