Reconocimiento Automático del Habla
Transcribir el lenguaje hablado a texto combinando modelos acústicos de la señal del habla con modelos de lenguaje de secuencias de palabras, desde sistemas de modelos ocultos de Markov hasta reconocedores neuronales de extremo a extremo.
Definition
El reconocimiento automático del habla es la tarea computacional de convertir una señal acústica del habla en una secuencia de palabras.
Scope
Cubre la conversión de audio a texto: extracción de características acústicas, modelado acústico y de pronunciación, el papel del modelo de lenguaje, decodificación y el cambio de sistemas de modelos ocultos de Markov a reconocimiento neuronal de extremo a extremo. Aborda la evaluación mediante la tasa de error de palabras y la importancia de los corpus compartidos. La síntesis del habla y la comprensión posterior se tratan en temas relacionados.
Core questions
- ¿Cómo se mapea la señal acústica a las palabras candidatas?
- ¿Cómo se combinan los modelos acústicos y de lenguaje en el reconocimiento?
- ¿Por qué los modelos neuronales y de extremo a extremo desplazaron a los sistemas basados en HMM?
- ¿Cómo se mide la precisión del reconocimiento mediante la tasa de error de palabras?
Key concepts
- modelo acústico
- modelo de lenguaje
- extracción de características
- modelo oculto de Markov
- decodificación
- reconocimiento de extremo a extremo
- tasa de error de palabras
- modelo de pronunciación
Key theories
- Combinación de modelos acústicos y de lenguaje
- El reconocimiento selecciona la secuencia de palabras que maximiza el producto de la probabilidad de un modelo acústico y la probabilidad a priori de un modelo de lenguaje, la formulación de canal ruidoso del reconocimiento del habla.
- Modelado de secuencias neuronales para el habla
- Las redes recurrentes y basadas en atención modelan directamente la estructura temporal del habla, lo que permite un reconocimiento de extremo a extremo que aprende patrones acústicos y lingüísticos de forma conjunta.
History
El reconocimiento del habla fue un motor importante de los métodos estadísticos, con los sistemas basados en HMM de IBM y los corpus compartidos, como la colección Wall Street Journal (1992), que permitieron un progreso constante y medible. Los modelos acústicos de redes neuronales profundas alrededor de 2010 y las arquitecturas de extremo a extremo posteriores redujeron drásticamente las tasas de error y llevaron el reconocimiento a los dispositivos cotidianos.
Debates
- Reconocimiento modular versus de extremo a extremo
- Si mantener modelos acústicos, de pronunciación y de lenguaje separados o entrenar una única red de extremo a extremo; los sistemas de extremo a extremo ahora lideran con suficientes datos, pero pueden ser más difíciles de adaptar.
Key figures
- Frederick Jelinek
- Janet Baker
- Daniel Jurafsky
- James H. Martin
Related topics
Seminal works
- paul1992
- jurafsky2025
Frequently asked questions
- ¿Qué es la tasa de error de palabras?
- La tasa de error de palabras mide la calidad del reconocimiento como la proporción de palabras que se sustituyen, eliminan o insertan en relación con una transcripción de referencia, por lo que los valores más bajos indican una transcripción más precisa.