ScholarGate
Asistente

Reconocimiento Automático del Habla

Transcribir el lenguaje hablado a texto combinando modelos acústicos de la señal del habla con modelos de lenguaje de secuencias de palabras, desde sistemas de modelos ocultos de Markov hasta reconocedores neuronales de extremo a extremo.

Encontrar tema con PaperMindPróximamenteFind papers & topics
Tools & resources
Descargar diapositivas
Learn & explore
VídeoPróximamente

Definition

El reconocimiento automático del habla es la tarea computacional de convertir una señal acústica del habla en una secuencia de palabras.

Scope

Cubre la conversión de audio a texto: extracción de características acústicas, modelado acústico y de pronunciación, el papel del modelo de lenguaje, decodificación y el cambio de sistemas de modelos ocultos de Markov a reconocimiento neuronal de extremo a extremo. Aborda la evaluación mediante la tasa de error de palabras y la importancia de los corpus compartidos. La síntesis del habla y la comprensión posterior se tratan en temas relacionados.

Core questions

  • ¿Cómo se mapea la señal acústica a las palabras candidatas?
  • ¿Cómo se combinan los modelos acústicos y de lenguaje en el reconocimiento?
  • ¿Por qué los modelos neuronales y de extremo a extremo desplazaron a los sistemas basados en HMM?
  • ¿Cómo se mide la precisión del reconocimiento mediante la tasa de error de palabras?

Key concepts

  • modelo acústico
  • modelo de lenguaje
  • extracción de características
  • modelo oculto de Markov
  • decodificación
  • reconocimiento de extremo a extremo
  • tasa de error de palabras
  • modelo de pronunciación

Key theories

Combinación de modelos acústicos y de lenguaje
El reconocimiento selecciona la secuencia de palabras que maximiza el producto de la probabilidad de un modelo acústico y la probabilidad a priori de un modelo de lenguaje, la formulación de canal ruidoso del reconocimiento del habla.
Modelado de secuencias neuronales para el habla
Las redes recurrentes y basadas en atención modelan directamente la estructura temporal del habla, lo que permite un reconocimiento de extremo a extremo que aprende patrones acústicos y lingüísticos de forma conjunta.

History

El reconocimiento del habla fue un motor importante de los métodos estadísticos, con los sistemas basados en HMM de IBM y los corpus compartidos, como la colección Wall Street Journal (1992), que permitieron un progreso constante y medible. Los modelos acústicos de redes neuronales profundas alrededor de 2010 y las arquitecturas de extremo a extremo posteriores redujeron drásticamente las tasas de error y llevaron el reconocimiento a los dispositivos cotidianos.

Debates

Reconocimiento modular versus de extremo a extremo
Si mantener modelos acústicos, de pronunciación y de lenguaje separados o entrenar una única red de extremo a extremo; los sistemas de extremo a extremo ahora lideran con suficientes datos, pero pueden ser más difíciles de adaptar.

Key figures

  • Frederick Jelinek
  • Janet Baker
  • Daniel Jurafsky
  • James H. Martin

Related topics

Seminal works

  • paul1992
  • jurafsky2025

Frequently asked questions

¿Qué es la tasa de error de palabras?
La tasa de error de palabras mide la calidad del reconocimiento como la proporción de palabras que se sustituyen, eliminan o insertan en relación con una transcripción de referencia, por lo que los valores más bajos indican una transcripción más precisa.

Methods for this concept

Related concepts