ScholarGate
Assistant

Reconnaissance automatique de la parole

Transcription du langage parlé en texte, combinant des modèles acoustiques du signal vocal avec des modèles linguistiques de séquences de mots, allant des systèmes basés sur des modèles de Markov cachés aux reconnaisseurs neuronaux de bout en bout.

Trouver un sujet avec PaperMindBientôtFind papers & topics
Tools & resources
Télécharger les diapositives
Learn & explore
VidéoBientôt

Definition

La reconnaissance automatique de la parole est la tâche computationnelle consistant à convertir un signal vocal acoustique en une séquence de mots.

Scope

Couvre la conversion de l'audio en texte : l'extraction de caractéristiques acoustiques, la modélisation acoustique et de la prononciation, le rôle du modèle linguistique, le décodage, et le passage des systèmes basés sur des modèles de Markov cachés à la reconnaissance neuronale de bout en bout. Il aborde l'évaluation par le taux d'erreur de mots et l'importance des corpus partagés. La synthèse vocale et la compréhension en aval sont traitées dans des sujets connexes.

Core questions

  • Comment le signal acoustique est-il mis en correspondance avec les mots candidats ?
  • Comment les modèles acoustiques et linguistiques se combinent-ils dans la reconnaissance ?
  • Pourquoi les modèles neuronaux et de bout en bout ont-ils supplanté les systèmes basés sur les HMM ?
  • Comment la précision de la reconnaissance est-elle mesurée par le taux d'erreur de mots ?

Key concepts

  • modèle acoustique
  • modèle linguistique
  • extraction de caractéristiques
  • modèle de Markov caché
  • décodage
  • reconnaissance de bout en bout
  • taux d'erreur de mots
  • modèle de prononciation

Key theories

Combinaison des modèles acoustiques et linguistiques
La reconnaissance sélectionne la séquence de mots maximisant le produit de la vraisemblance d'un modèle acoustique et de la probabilité a priori d'un modèle linguistique, ce qui constitue la formulation du canal bruité de la reconnaissance vocale.
Modélisation séquentielle neuronale pour la parole
Les réseaux récurrents et basés sur l'attention modélisent directement la structure temporelle de la parole, permettant une reconnaissance de bout en bout qui apprend conjointement les motifs acoustiques et linguistiques.

History

La reconnaissance vocale a été un moteur majeur des méthodes statistiques, avec les systèmes d'IBM basés sur les HMM et les corpus partagés tels que la collection Wall Street Journal (1992) permettant des progrès constants et mesurables. Les modèles acoustiques neuronaux profonds vers 2010 et les architectures de bout en bout subséquentes ont considérablement réduit les taux d'erreur et ont intégré la reconnaissance dans les appareils du quotidien.

Debates

Reconnaissance modulaire versus de bout en bout
Faut-il conserver des modèles acoustiques, de prononciation et linguistiques séparés ou entraîner un seul réseau de bout en bout ? Les systèmes de bout en bout sont désormais plus performants avec suffisamment de données, mais peuvent être plus difficiles à adapter.

Key figures

  • Frederick Jelinek
  • Janet Baker
  • Daniel Jurafsky
  • James H. Martin

Related topics

Seminal works

  • paul1992
  • jurafsky2025

Frequently asked questions

Qu'est-ce que le taux d'erreur de mots ?
Le taux d'erreur de mots mesure la qualité de la reconnaissance comme la proportion de mots substitués, supprimés ou insérés par rapport à une transcription de référence ; des valeurs plus faibles indiquent donc une transcription plus précise.

Methods for this concept

Related concepts