Reconnaissance automatique de la parole
Transcription du langage parlé en texte, combinant des modèles acoustiques du signal vocal avec des modèles linguistiques de séquences de mots, allant des systèmes basés sur des modèles de Markov cachés aux reconnaisseurs neuronaux de bout en bout.
Definition
La reconnaissance automatique de la parole est la tâche computationnelle consistant à convertir un signal vocal acoustique en une séquence de mots.
Scope
Couvre la conversion de l'audio en texte : l'extraction de caractéristiques acoustiques, la modélisation acoustique et de la prononciation, le rôle du modèle linguistique, le décodage, et le passage des systèmes basés sur des modèles de Markov cachés à la reconnaissance neuronale de bout en bout. Il aborde l'évaluation par le taux d'erreur de mots et l'importance des corpus partagés. La synthèse vocale et la compréhension en aval sont traitées dans des sujets connexes.
Core questions
- Comment le signal acoustique est-il mis en correspondance avec les mots candidats ?
- Comment les modèles acoustiques et linguistiques se combinent-ils dans la reconnaissance ?
- Pourquoi les modèles neuronaux et de bout en bout ont-ils supplanté les systèmes basés sur les HMM ?
- Comment la précision de la reconnaissance est-elle mesurée par le taux d'erreur de mots ?
Key concepts
- modèle acoustique
- modèle linguistique
- extraction de caractéristiques
- modèle de Markov caché
- décodage
- reconnaissance de bout en bout
- taux d'erreur de mots
- modèle de prononciation
Key theories
- Combinaison des modèles acoustiques et linguistiques
- La reconnaissance sélectionne la séquence de mots maximisant le produit de la vraisemblance d'un modèle acoustique et de la probabilité a priori d'un modèle linguistique, ce qui constitue la formulation du canal bruité de la reconnaissance vocale.
- Modélisation séquentielle neuronale pour la parole
- Les réseaux récurrents et basés sur l'attention modélisent directement la structure temporelle de la parole, permettant une reconnaissance de bout en bout qui apprend conjointement les motifs acoustiques et linguistiques.
History
La reconnaissance vocale a été un moteur majeur des méthodes statistiques, avec les systèmes d'IBM basés sur les HMM et les corpus partagés tels que la collection Wall Street Journal (1992) permettant des progrès constants et mesurables. Les modèles acoustiques neuronaux profonds vers 2010 et les architectures de bout en bout subséquentes ont considérablement réduit les taux d'erreur et ont intégré la reconnaissance dans les appareils du quotidien.
Debates
- Reconnaissance modulaire versus de bout en bout
- Faut-il conserver des modèles acoustiques, de prononciation et linguistiques séparés ou entraîner un seul réseau de bout en bout ? Les systèmes de bout en bout sont désormais plus performants avec suffisamment de données, mais peuvent être plus difficiles à adapter.
Key figures
- Frederick Jelinek
- Janet Baker
- Daniel Jurafsky
- James H. Martin
Related topics
Seminal works
- paul1992
- jurafsky2025
Frequently asked questions
- Qu'est-ce que le taux d'erreur de mots ?
- Le taux d'erreur de mots mesure la qualité de la reconnaissance comme la proportion de mots substitués, supprimés ou insérés par rapport à une transcription de référence ; des valeurs plus faibles indiquent donc une transcription plus précise.