ScholarGate
Asistente

Síntesis de Voz

Generación de voz con sonido natural a partir de texto, combinando el análisis lingüístico de "front-end" — normalización, pronunciación y prosodia — con la generación de formas de onda, desde métodos concatenativos hasta neuronales.

Encontrar tema con PaperMindPróximamenteFind papers & topics
Tools & resources
Descargar diapositivas
Learn & explore
VídeoPróximamente

Definition

La síntesis de voz, o texto a voz, es la generación computacional de una señal de voz inteligible y natural a partir de un texto de entrada.

Scope

Cubre la síntesis de texto a voz: el "front-end" que normaliza el texto y predice la pronunciación y la prosodia, y el "back-end" que produce la forma de onda, abarcando enfoques concatenativos, paramétricos y neuronales. Aborda la conversión de grafema a fonema y el modelado prosódico. El reconocimiento de voz se cubre en un tema relacionado.

Core questions

  • ¿Cómo se normaliza el texto escrito y se convierte en pronunciaciones?
  • ¿Cómo se predice y se reproduce la prosodia — ritmo, acento y entonación?
  • ¿En qué se diferencian la síntesis concatenativa, paramétrica y neuronal?
  • ¿Cómo se evalúa la inteligibilidad y naturalidad de la voz sintetizada?

Key concepts

  • normalización de texto
  • conversión de grafema a fonema
  • prosodia
  • síntesis concatenativa
  • síntesis paramétrica
  • vocoder neuronal
  • inteligibilidad
  • naturalidad

Key theories

Procesamiento lingüístico de "front-end"
Conversión de texto sin procesar en una especificación lingüística mediante normalización, conversión de grafema a fonema y predicción de prosodia antes de generar cualquier forma de onda.
Paradigmas de generación de formas de onda
Producción de audio mediante la concatenación de unidades grabadas, mediante modelos paramétricos estadísticos o mediante redes neuronales que generan la forma de onda directamente para una alta naturalidad.

History

La síntesis temprana utilizó métodos de formantes basados en reglas y luego métodos concatenativos que unían unidades grabadas, investigados exhaustivamente por Taylor. La síntesis paramétrica estadística mejoró la flexibilidad en la década de 2000, y los modelos de forma de onda neuronales a finales de la década de 2010 produjeron voz que se acercaba a la naturalidad humana.

Debates

Naturalidad versus controlabilidad
La síntesis neuronal es muy natural, pero puede ser más difícil de controlar para una prosodia o rasgos de hablante específicos que los métodos paramétricos anteriores, lo que plantea una compensación para aplicaciones expresivas.

Key figures

  • Paul Taylor
  • Daniel Jurafsky
  • James H. Martin

Related topics

Seminal works

  • taylor2009
  • jurafsky2025

Frequently asked questions

¿Qué es la conversión de grafema a fonema?
Es el paso que predice cómo se pronuncian las palabras escritas, mapeando letras a símbolos fonéticos. Es esencial porque la ortografía es una guía imperfecta para la pronunciación, especialmente para nombres y palabras desconocidas.

Methods for this concept

Related concepts