Síntesis de Voz
Generación de voz con sonido natural a partir de texto, combinando el análisis lingüístico de "front-end" — normalización, pronunciación y prosodia — con la generación de formas de onda, desde métodos concatenativos hasta neuronales.
Definition
La síntesis de voz, o texto a voz, es la generación computacional de una señal de voz inteligible y natural a partir de un texto de entrada.
Scope
Cubre la síntesis de texto a voz: el "front-end" que normaliza el texto y predice la pronunciación y la prosodia, y el "back-end" que produce la forma de onda, abarcando enfoques concatenativos, paramétricos y neuronales. Aborda la conversión de grafema a fonema y el modelado prosódico. El reconocimiento de voz se cubre en un tema relacionado.
Core questions
- ¿Cómo se normaliza el texto escrito y se convierte en pronunciaciones?
- ¿Cómo se predice y se reproduce la prosodia — ritmo, acento y entonación?
- ¿En qué se diferencian la síntesis concatenativa, paramétrica y neuronal?
- ¿Cómo se evalúa la inteligibilidad y naturalidad de la voz sintetizada?
Key concepts
- normalización de texto
- conversión de grafema a fonema
- prosodia
- síntesis concatenativa
- síntesis paramétrica
- vocoder neuronal
- inteligibilidad
- naturalidad
Key theories
- Procesamiento lingüístico de "front-end"
- Conversión de texto sin procesar en una especificación lingüística mediante normalización, conversión de grafema a fonema y predicción de prosodia antes de generar cualquier forma de onda.
- Paradigmas de generación de formas de onda
- Producción de audio mediante la concatenación de unidades grabadas, mediante modelos paramétricos estadísticos o mediante redes neuronales que generan la forma de onda directamente para una alta naturalidad.
History
La síntesis temprana utilizó métodos de formantes basados en reglas y luego métodos concatenativos que unían unidades grabadas, investigados exhaustivamente por Taylor. La síntesis paramétrica estadística mejoró la flexibilidad en la década de 2000, y los modelos de forma de onda neuronales a finales de la década de 2010 produjeron voz que se acercaba a la naturalidad humana.
Debates
- Naturalidad versus controlabilidad
- La síntesis neuronal es muy natural, pero puede ser más difícil de controlar para una prosodia o rasgos de hablante específicos que los métodos paramétricos anteriores, lo que plantea una compensación para aplicaciones expresivas.
Key figures
- Paul Taylor
- Daniel Jurafsky
- James H. Martin
Related topics
Seminal works
- taylor2009
- jurafsky2025
Frequently asked questions
- ¿Qué es la conversión de grafema a fonema?
- Es el paso que predice cómo se pronuncian las palabras escritas, mapeando letras a símbolos fonéticos. Es esencial porque la ortografía es una guía imperfecta para la pronunciación, especialmente para nombres y palabras desconocidas.